SlideShare a Scribd company logo
1 of 53
Download to read offline
Gli scarti .... “tipi”… facili




                                   ( x x )2
                       1           2   2
             f (x) =           e
                           2




   dove si narra dell’utilizzo di excel
    per il calcolo della ripetibilità e
      dell’incertezza delle misure
                variabili
         con la concentrazione

                                              Michele Rapillo
Michele Rapillo                                                 Gli scarti... “tipi”... facili




© 2008
Proprietà letteraria riservata.

SINAL
Sistema Nazionale per l’Accreditamento di Laboratori
Piazza Mincio 2, 00198 Roma
Tel. 06 8440991
Fax 06 8841199
www.sinal.it




Questa pubblicazione può essere liberamente riprodotta, citando la fonte.
Ne è vietata la riproduzione a fini commerciali.

Edizione luglio 2008.




                                                                                                 Pag. 2 di 52
Michele Rapillo                                 Gli scarti... “tipi”... facili




                                              a Teresa
                  per aver dimostrato che la certezza esiste.




                                                                                 Pag. 3 di 52
Michele Rapillo                                                    Gli scarti... “tipi”... facili




Ringrazio

Nicola Bottazzini
 per i preziosi suggerimenti, per l’utilissimo
materiale messo a disposizione e per la
revisione generale del presente documento;

Fabrizio Francia e il gruppo Francia Latticini
per aver consentito la pubblicazione di importanti
e riservati dati aziendali;

Luis Vizcarra,
spalla impagabile,
“per essersi prestato al gioco”;

Emma Angelini Bianco
per il contributo da lettore che è passato
 dall’incertezza alla certezza;

Paolo Bianco
per l’attenta revisione del testo
ed il supporto alla pubblicazione.

                                                 Michele Rapillo




                                                                                                    Pag. 4 di 52
Michele Rapillo                                                   Gli scarti... “tipi”... facili



                                           Presentazione

Nel lungo e talvolta tortuoso itinerario della valutazione dell’incertezza di misura non a tutti è
dato di procedere speditamente. Certamente ci riesce Michele Rapillo che può avvalersi di una
lunga e diversificata esperienza operativa per fare da “Guida” a tutti coloro che in Laboratorio,
alle prese con un determinato test analitico, debbono necessariamente produrre un risultato
completo.
 Come in un’escursione lungo un aspro sentiero di montagna, in due si procede meglio e Rapillo
ha appunto scelto di procedere assieme ad un compagno di escursione, simpatico ma, come
spesso capita nella vita, alquanto arrugginito per quanto riguarda i ricordi universitari relativi ad
errori, scarti, gaussiane eccetera, che vengono opportunamente sintetizzati..
 L’ing. Rapillo, forte anche della sua attuale posizione di autorevole membro del Comitato di
Accreditamento del SINAL che assai spesso si trova alle prese con Laboratori di Prova che della
determinazione dell’incertezza di misura farebbero volentieri a meno, con pazienza e perizia
incoraggia e spinge sulla buona strada non solo il suo interlocutore, ma anche tutti coloro che
vorranno intraprendere la lettura di questa “Guida” che si rivela preziosissima bussola per entrare
in confidenza con una componente essenziale della misura di laboratorio.
 Pertanto a tutti coloro che operano in Laboratori di Prova ed in particolare a quelli che sono
impegnati nelle operazioni relative all’accreditamento, consigliamo fortemente la lettura di
queste pagine: una lettura che sarà di grande giovamento per il loro lavoro e che per di più li farà
spesso sorridere.

                                                         Antonio Paoletti
                                                         Presidente SINAL




                                                                                                   Pag. 5 di 52
Michele Rapillo                                                   Gli scarti... “tipi”... facili



                                            Introduzione

 Che cosa ci può essere di facile nel concetto di scarto tipo, varianza, chi-quadro? La domanda
sorgerà spontanea nella mente di alcuni fra coloro che, nei loro laboratori, si sono trovati qualche
volta a contatto con problematiche di validazione di metodi di prova e quindi con la
determinazione di ripetibilità ed incertezza delle misure. Per quelli che hanno frequentato corsi
specifici sull’incertezza di misura, lo scarto tipo non risulterà così misterioso ed a maggior
ragione non lo sarà per gli appassionati lettori delle numerose pubblicazioni sull’argomento:
dalla GUM (o UNI ENV 13005) con le sue appendici (centinaia di pagine) in emissione, alla
guida EURACHEM (anzi adesso 3 guide), alla guida EUROLAB, e alla documentazione varia
che si può trovare in rete.
D’altronde chi solo saltuariamente ha occasione d’incontrare questa problematica ne fa spesso la
conoscenza in modo disorganico e confuso, tra approccio top-down e bottom-up, olistico ed
Horwitz, tra scarto tipo giustappunto e scarto tipo della media, oscuri contributi ottenuti con
valutazioni di tipo A e B, e finisce per considerarla piena, non già di risvolti interessanti, ma
piuttosto di noia e fastidio, come accade per gli argomenti ostici che si è costretti ad imparare più
o meno a memoria perché non sembrano avere un’essenza da cogliere. Tra l’altro le guide
sparano questi riferimenti al lettore come se questi avesse appena terminato con profitto un corso
avanzato di statistica, gettandolo nel panico alla ricerca di vecchi testi di scuola, tabelle di dati,
solo citate e mai riportate nei documenti (come se il lettore fosse seduto su una pila di testi di
statistica).
Inoltre, anche se Bertolt Brecht afferma che: “Di tutte le cose sicure la più certa è il dubbio”,
un’approfondita riflessione sul concetto di incertezza può generare inquietudine.
Questo testo molto ricorda per la sua tipicità i dialoghi di Platone, che si contrapponevano agli
scritti retorici circolanti all’epoca ad Atene, ed ha il grande pregio di presentare in forma
colloquiale ma rigorosa il calcolo dell’incertezza e della ripetibilità delle misure.
Analogamente a Sisifo, discepolo di Socrate, Luis viene guidato, dopo un esaustivo elenco di
documenti relativi all’incertezza di misura, attraverso le definizioni di scarto tipo, varianza,
distribuzione di probabilità, normal probability plot, ecc., che costituiscono le basi teoriche del
calcolo. Entrano a questo punto in scena i dati sperimentali sui quali viene effettuato il calcolo
con l’indicazione delle relative funzioni del software utilizzato (niente tabelle!).
Rispetto ai testi a disposizione degli operatori del settore, questo documento fornisce una guida
rapida che suggerisce però diversi livelli di approfondimento privilegiando comunque
l’approccio relativo a “come si fanno le cose” rispetto all’approccio “cosa bisogna fare”.
Poiché, come recita un proverbio cinese “ L'uomo che ha troppe parole, spesso non ha alcuna
certezza”, termino questa breve presentazione esprimendo la convinzione che questo documento
contribuirà a sfatare alcuni miti: che l’incertezza di misura sia impossibile da comprendere, che
si traduca in una inquietante serie di equazioni da imparare a memoria, che le persone che si
occupano di queste         tematiche     siano umanamente aride e fredde e prive del senso
dell’umorismo.
Mi auguro pertanto che questa promessa di sradicamento di convinzioni diffuse risulti stimolante
per tutte le persone che per ragioni di lavoro o per mera curiosità vengano a trovarsi a contatto
con le problematiche di ripetibilità ed incertezza delle misure.



                                                                                  Paolo Bianco
                                                                                 Direttore SINAL

                                                                                                   Pag. 6 di 52
Michele Rapillo                                                                                                        Gli scarti... “tipi”... facili




   INDICE


IL FATTO............................................................................................................................. ............8
IL LAVORO ....................................................................................................................................10
LUIS E I DUBBI SULLA                    DISTRIBUZIONE DEI DATI SPERIMENTALI ....................................................18

LUIS E LA DISTRIBUZIONE NORMALE ............................................................................................20
LUIS E I DATI ANOMALI ................................................................................................................ .23
LUIS E LO SCARTO                   TIPO .................................................................................................................24

LUIS E LA VERIFICA                   DELLA MEDIA                ................................................................................................25
LUIS E LA VERIFICA                   DELLO SCARTO TIPO......................................................................................26

LUIS E IL CALCOLO                   DELLO SCARTO TIPO VARIABILE CON LA CONCENTRAZIONE                                                                .........................27
L’INCERTEZZA                DI   LUIS .................................................................................................................36
 LUIS E L’ APPROCCIO METROLOGICO .....................................................................................................................................38
 LUIS E HORWITZ ....................................................................................................................................................................41
 LUIS E IL CRITERIO OLISTICO .................................................................................................................................................42
 L’ INCERTEZZA DI LUIS VARIABILE CON LA CONCENTRAZIONE ...........................................................................................42

LA DECISIONE               FINALE DI           LUIS ......................................................................................................51




                                                                                                                                                                     Pag. 7 di 52
Michele Rapillo                                                                   Gli scarti... “tipi”... facili


                                                                                              Il Fatto
    Il mio amico Luis, un microbiologo sudamericano che dirige il laboratorio di una importante
    azienda lattiero casearia1, dovendo affrontare il calcolo della ripetibilità e dell’incertezza di
    misura mi ha chiesto di indicargli qualche riferimento bibliografico che lo aiutasse ad affrontare
    tali temi in modo rigoroso, ma al tempo stesso pratico. Gli ho consigliato di consultare il sito del
    SINAL2 che considero il punto di riferimento nazionale più completo sulla tematica.
    Luis ha seguito il mio consiglio e si è ritrovato davanti un elenco molto ampio; dopo una rapida
    analisi ha focalizzato l’attenzione su quei documenti che già nel titolo avevano il termine
    chimica o microbiologia e contemporaneamente anche incertezza o ripetibilità, e quelli che,
    indipendentemente dalla disciplina (chimica, meccanica, ecc.) trattassero il tema dell’incertezza,
    ottenendo il sottoinsieme riportato di seguito ed evidenziato in giallo.

Sigla           Titolo                                                                         Rev.
DT-0002         Guida per la valutazione e la espressione dell'incertezza nelle misurazioni      1
DT-0004         Linee guida per la taratura di strumenti nel settore della compatibilità         0
                elettromagnetica e dei campi elettromagnetici ambientali
DT-0002/1       Esempi applicativi di valutazione dell'incertezza nelle misurazioni elettriche   1
DT-0002/2       Esempi applicativi di valutazione dell'incertezza nelle misurazioni              0
                meccaniche
DT-0002/3       Avvertenze per la valutazione dell'incertezza nel campo dell'analisi chimica     0
DT-0002/4       Esempi applicativi di valutazione dell'incertezza nelle misurazioni chimiche     0
DT-0002/5       Esempio applicativo per misurazioni su materiali strutturali                     1
           3
DT-0002/6       Guida al calcolo della ripetibilità di un metodo di prova ed alla sua verifica   0
                nel tempo
EA-4/02         Expression of the uncertainty of measurement in calibration                     00
EA-4/09         Accreditation for sensory testing laboratories                                  01
EA-4/10         Accreditation for Laboratories Performing Microbiological Testing               02
EA-4/15         Accreditation for Bodies Performing non-Destructive Testing                     00
EA-4/16         EA guidelines on the expression of uncertainty in quantitative testing          00
EA-4/18         Guidance on the Application of EN 45001 and ISO/IEC Guide 25 to                1 Ed
                Electromagnetic Compatability (EMC) Testing (Già EAL-G27)
QUAM:2000.1 EURACHEM-CITAC Guide CG4 - Quantifying Uncertainty in Analytical                   2 Ed
                Measurement (*)
SIT Doc-519 Introduzione ai criteri di valutazione della incertezza di misura nelle tarature     5
 Presentazione SINAL e requisiti della UNI CEI EN ISO/IEC 17025 (P. Bianco)
     • ISO/IEC 17025: requisiti tecnici - Incertezza di misura: approccio GUM
     • ISO/IEC 17025: requisiti tecnici - Incertezza di misura: altri approcci
     • ISO/IEC 17025: requisiti tecnici - Incertezza di misura: decisioni
 Incertezza di misura e prove valutative (S. Pepa e M. Scognamiglio)
                                                     Sito dedicato alla guida EURACHEM-CITAC.
www.measurementuncertainty.org                       E' disponibile la guida in linea, con numerosi
                                                     esempi di chimica analitica.
    1
        Francia Latticini S.p.A.
    2
        Sistema Nazionale di Accreditamento dei Laboratori di Prova – www.sinal.it.
    3
        Documento emesso durante la revisione del presente lavoro

                                                                                                                       Pag. 8 di 52
Michele Rapillo                                                   Gli scarti... “tipi”... facili


MATERIALE DEI CORSI DI AGGIORNAMENTO 2006
•       Incertezza di misura in chimica e qualità dei dati. P. Anichini
Materiale dei corsi sull'incertezza di misura nelle prove chimiche tenuti con la collaborazione
di UNICHIM:
•       Introduzione al corso. C. Divo
•       Esempio microbiologico. N. Bottazzini
•       Verifiche della qualità dei risultati. C. Divo
Interventi al Convegno L'ACCREDITAMENTO DEI LABORATORI PER LA SICUREZZA
ALIMENTARE, 25-26 ottobre 2005, organizzato da ISS ORL, SINAL, SIT
· Criteri generali per la valutazione dell'incertezza di misura. F. Pennecchi, M. Mosca
· Incertezza di misura: dalla GUM alla linea guida EURACHEM-CITAC. A. Menditto , M. Plassa
· Esempi pratici per la valutazione dell'incertezza di misura in ambito chimico. P. Anichini, G.
  Bonacchi
· Esempi pratici per la valutazione dell'incertezza di misura in ambito microbiologico. A. Maiello,
  A. Viti
· Valutazione dell'incertezza di misura: esperienza di un laboratorio accreditato per gli OGM. S.
  De Martin

A questo punto Luis, che tra l’altro esegue direttamente, e supervisiona, circa 1000 determinazioni
giornaliere, ha iniziato una prima ricognizione su tutti questi documenti, e dopo circa una settimana,
completamente demoralizzato, e in forte crisi di identità, mi ha chiamato e mi ha detto testualmente:
“i pochi concetti che credevo di avere chiari sull’incertezza e sulla statistica si sono trasformati in
una informe massa di dubbi e di perplessità, che posso fare?”
Gli ho consigliato di seguire un corso sul tema dell’incertezza allo scopo di rinfrescare i concetti
base di statistica e di acquisire un approccio sistematico per poter poi meglio utilizzare anche i
documenti proposti dal SINAL.

Un mese ed un corso dopo Luis mi ha richiamato, confessandomi che il corso era stato molto utile,
gli aveva fornito molte informazioni, gli aveva sciolto molti dubbi, ma principalmente gli aveva dato
una certezza, la certezza che l’incertezza era una cosa da iniziati, tanto che alla fine del corso uno
dei partecipanti, un chimico, aveva detto:

ma alla fine, come si calcolano la ripetibilità e l’incertezza? io questo solo volevo sapere e ancora
                                              non lo so!

Era chiaro, anche questa volta, come nella maggior parte dei corsi era stato insegnato al più, “cosa
bisogna fare” piuttosto che “come si fanno le cose”.
Ormai ero incastrato, dovevo dare una mano a Luis.

Il mio dubbio fu se partire dai concetti base di statistica descrittiva e di inferenza statistica, oppure
dalle necessità pratiche di Luis; la mia certezza era la consapevolezza di dovergli fornire sia le
informazioni teoriche indispensabili a “capire il perché” che gli elementi pratici per “sapere come”,
miscelandoli e definendone le priorità in relazione alle necessità.
Decisi di partire dalle necessità pratiche del mio amico.




                                                                                                       Pag. 9 di 52
Michele Rapillo                                                                       Gli scarti... “tipi”... facili


                                                                                                                               Il lavoro

    M4Qual è il tuo problema?

    L5 Devo validare un metodo interno. In realtà non si tratta di un metodo ideato dal laboratorio: con
       tutto quello che ho da fare ci mancherebbe che mi mettessi a sviluppare dei metodi di prova!
       Il metodo, che prevede l’utilizzo di un’apparecchiatura complessa, il FOSSOMATIC MINOR, è
       stato elaborato da una multinazionale del settore, la FOSS Analytical A/S e non riporta dati di
       validazione. Il parametro da determinare è il numero di cellule somatiche/ml nel latte vaccino. I
       limiti operativi del metodo prevedono la determinazione delle cellule somatiche nel campo di
       misura 100.000 – 2.000.000 cellule/ml.
       Ai fini della validazione devo determinare, tra l’altro, la ripetibilità e l’incertezza.

    M Mi puoi spiegare meglio come è fatta e come funziona questa apparecchiatura?

    L Il Fossomatic Minor, evidenzia il DNA cellulare con un colorante (Propidium iodide), lo
      fotografa e quindi elabora l’immagine elettronicamente restituendo il valore di cellule somatiche
      attraverso il collegamento ad un PC.

    M Quali sono le specifiche tecniche del Fossomatic Minor? In particolare cosa riporta la FOSS in
      relazione ai parametri che devi determinare?

    L La FOSS nelle sue specifiche tecniche riporta la ripetibilità espressa in termini di coefficiente di
      variazione CV a tre livelli e una valutazione dell’accuratezza come rapporto con un metodo di
      conta diretta al microscopio, come puoi ben vedere.

                         Repeatability**:   CV < 7 % at 100.000 cells/ml (** coefficient of variance)
                                            CV < 5 % at 300.000 cells/ml
                                            CV < 4 % at 500.000 cells/ml

                         Accuracy:          < 10 % relative mean diff. from Direct Microscopic Somatic Cell Count
                                            (DMSCC)
                         Carry-over:        < 1.5%




*




    M Bene, ecco il nostro primo problemino: esprimere il CV secondo parametri che conosciamo
      meglio e che possiamo determinare: la formula del CV è la seguente
                                                                  s
                                                       CV =         100
                                                                  x
      dove s è lo scarto tipo di ripetibilità e x la media dei risultati di un numero elevato di prove
      (>30) eseguite con il metodo in esame.
       4
           M = Michele
       5
           L = Luis
                                                                                                                              Pag. 10 di 52
Michele Rapillo                                                   Gli scarti... “tipi”... facili



 L Mi ricordi cosa è lo scarto tipo?

 M Lo scarto tipo è la radice quadrata positiva della varianza, - ho risposto in modo per me chiaro,
   preciso e inequivocabile -.

 L Cosa è la varianza?

 M La varianza è una misura della dispersione dei risultati, ed è data dalla somma dei quadrati delle
   differenze rispetto alla loro media divisa per il numero dei risultati meno uno, che in termini
   matematici (quando si riferisce ad un campione di dati) si esprime come riportato di seguito.


varianza( x1, x2 ,...........x n ) =




    Mentre se ci riferiamo all’intera popolazione di dati, il termine n-1 viene sostituito da n.

 L Quelle che mi hai dato sono definizioni, io voglio sapere che cosa è in pratica lo scarto tipo,
   inoltre nei miei ricordi, non ritrovo lo scarto tipo, che se ho ben capito è probabilmente un altro
   modo di chiamare la deviazione standard. Tale termine non si trova neanche nelle funzioni
   statistiche di excel, allora me lo spieghi?

 M Per quanto riguarda la seconda parte della tua domanda ti dico subito che sono sinonimi, anche
   se, volendo, si possono trovare giustificazioni semantiche e interpretazioni interessanti del
   diverso nome dato a due parametri identici. In ogni caso nel nostro lavoro, è bene chiarirlo
   subito, parleremo sempre di scarto tipo.
   E veniamo alla prima parte della domanda, e cioè cosa è, o meglio cosa rappresenta in pratica, lo
   “scarto tipo”.
   In primo luogo ti devo ricordare che molti fenomeni naturali da quelli biologici a quelli fisici si
   distribuiscono generalmente secondo una curva detta “curva di Gauss”, e da tale curva
   partiremo.

 L Ferma la musica! Anche al corso che ho frequentato hanno iniziato da qui, ma poi sai come è
   finita.

 M Abbi fede e ascolta quello che ti dico!
   Intanto, prima di parlare di Gauss devo darti un’altra definizione, quella di ripetibilità. La
   norma UNI-CEI-ENV 130056 del 2000, dà la seguente definizione:

     Ripetibilità         Grado di concordanza tra i risultati di successive misurazioni dello stesso
     (dei risultati di    misurando effettuate nelle stesse condizioni di misura.
     misurazione)               Nota 1 queste condizioni sono denominate condizioni di
                                ripetibilità
                                Nota 2 Le condizioni di ripetibilità comprendono:
                                                                                                        Pag. 11 di 52
Michele Rapillo                                                             Gli scarti... “tipi”... facili

               •  lo                             procedimento di misurazione,
               stesso                            • lo stesso osservatore,


6
    UNI-CEI-ENV 13005 Guida all’espressione dell’incertezza di misura




                                                                                                             Pag. 12 di 52
Michele Rapillo                                                                               Gli scarti... “tipi”... facili


                                                     lo stesso strumento di misura utilizzato nelle stesse
                                                      •
                                                     condizioni
                                                  • lo stesso luogo
                                                  • ripetizione entro un breve periodo di tempo
                                          Nota 3 La ripetibilità può essere espressa quantitativamente in
                                          termini delle caratteristiche di dispersione dei risultati

   Il Manuale Unichim 179/17 distingue invece tra ripetibilità stretta e ripetibilità intermedia e
   riporta:

   Condizioni di Condizioni nelle quali i risultati mutuamente indipendenti vengono ottenuti
   ripetibilità  con lo stesso metodo su uno stesso materiale, nello stesso laboratorio, dallo
   stretta:      stesso operatore, utilizzando la stessa strumentazione, in un intervallo di
                 tempo breve (senza ritaratura).
                 Nota - Queste condizioni rappresentano la costanza di tutti i fattori
                       riguardanti la realizzazione delle prove. La variazione di una o più di
                       tali condizioni, tenendo però fisso il laboratorio, il materiale da
                       esaminare e il metodo, porta a considerare una ripetibilità
                       intermedia8. Se intervengono diversi laboratori con lo stesso metodo
                       nell’esame dello stesso campione si determinano le condizioni per
                       valutare la riproducibilità.

   Tornando alla distribuzione normale, lo stesso manuale 179/1 dell’UNICHIM, riporta che nella
   maggior parte dei casi i risultati di analisi chimico fisiche condotte in condizioni di ripetibilità
   stretta si distribuiscono secondo la classica curva a campana o di Gauss.
   Nel nostro caso, la variabile in gioco, il conteggio delle cellule somatiche, è una tipica variabile
   discreta che per sua natura non si distribuisce secondo la curva di Gauss, ma secondo quella di
   Poisson. Tuttavia ai conteggi elevati, come quelli relativi alle cellule somatiche, la distribuzione
   di Gauss ed i suoi parametri rappresentano un’ottima approssimazione di quella di Poisson.

L Mi ricordi le caratteristiche e le proprietà delle gaussiana?

M Si supponga di eseguire, in condizioni di ripetibilità stretta, un gran numero di misurazioni di un
  certo misurando, e di riportare in un grafico (istogramma) le frequenze relative9 dei valori
  ottenuti (xi) con le prime 20, 40, ...1000 misure. All'aumentare del numero di misure, i valori
  tendono ad accentrarsi attorno alla loro media e l'istogramma assume una forma a campana
  sempre più regolare, che può essere approssimata con una funzione reale nota come funzione di
  Gauss o funzione normale.




   7
      Manuale Unichim 179/1 Linee guida per la validazione di metodi analitici nei laboratori chimici - valutazione della precisione (ripetibilità
   stretta) di un metodo analitico eseguito in un unico laboratorio da un solo operatore su di un unico strumento in un breve intervallo di tempo.
   8
     La definizione e i diversi casi sono riportati nella ISO 5725-3
   9
     Le frequenze relative sono date dal rapporto tra le frequenze assolute ed il numero delle osservazioni.


                                                                                                                                   Pag. 13 di 52
Michele Rapillo                                                          Gli scarti... “tipi”... facili




              La funzione di Gauss
                                                                             Distribuzione di Gauss




dove:
f(x) è la densità di probabilità o frequenza con cui
     il valore x può essere riscontrato
     è lo scarto tipo della totalità delle misure;
μ    è la media della totalità delle misure;
e    base dei logaritmi naturali ( e = 2.71828...).                                            μ

     = 3.14159...


                              La variabilità aumenta
                              all’aumentare di




                  μ = μ1 = μ2                                                    =     1   =       2
Al variare dello scarto tipo la curva modifica la      Al variare della media aritmetica (a parità di scarto tipo)
sua forma                                              la curva trasla sull’asse delle x


                                                                          Le caratteristiche della
                                                                           distribuzione normale
                                                          1. è simmetrica rispetto al valore medio
                                                          2. il valore di x = μ oltre che alla media aritmetica
                                                             coincide con la moda e la mediana
                                                          3. è asintotica all'asse delle x da entrambi i lati
                                                          4. è crescente per x<μ e decrescente per x>μ
                                                          5. possiede due punti di flesso per x = μ±
                                                          6. l’area sotto la curva è = 1 (rappresentando tale
                                                             area la probabilità che si ottenga un qualsiasi
                                                             valore di x)



L OK, mi hai ricordato una serie di cose che ho studiato durante il mio corso di studi, ma avendole
  abbandonate da tempo, quasi non ricordavo più. In effetti avevo proprio bisogno di questi
  richiami. Però ….. ora che ci penso, il fatto che l’area sotto la curva di Gauss sia uguale ad 1 mi
  serve a poco, in quanto le mie necessità sono in genere altre; ad esempio, se io voglio conoscere
  la probabilità che un dato valore sia compreso in un intervallo definito, delimitato ad esempio da
  due valori x1 e x2, come devo fare?



                                                                                                              Pag. 14 di 52
Michele Rapillo                                                               Gli scarti... “tipi”... facili


M Ovviamente tale probabilità è data dall’area della curva compresa tra x1 ed x2 e quindi basta
  semplicemente calcolare tale area, calcolando l’integrale della funzione di Gauss tra questi due
  valori.
  Il vero problema è che questa funzione non è facilmente integrabile.

L E i computer a che servono?

M In effetti puoi usare le funzioni di excel, e ti dirò dopo come, ma intanto è utile che tu acquisisca
  le ultime informazioni sulla curva di Gauss ed in particolare su come si opera per il calcolo del
  suo integrale.




                                                                         INTERVALLI DI PROBABILITÀ
                             riferimento 10


                                                                   Per ovviare alle difficoltà di calcolo
                                                                   dell’integrale della funzione di Gauss, si può
                                                                   trasformare una generica funzione gaussiana
                                                                   f(x) con media μ e varianza 2, in una
                                                                   funzione gaussiana standard con media 0 e
                                                                   varianza 1. Ponendo:
                                                                                                          1 (z)2
                                                                         x μ                        1    2
                                                                    Z=          si ottiene f (z) =    e
                                                                                                           2
                                                                      il simbolo Z viene generalmente in molti
                                                                              laboratori sostituito da kp
                                                                   Per la funzione standardizzata sono state
                               riferimento11                       predisposte delle tabelle in funzione di Z.

                                                                    Le tabelle se pur ancora largamente usate
                                                                    stanno sempre più cedendo il campo ai PC



   10
        Sito SINAL Paolo Bianco ISO/IEC 17025: requisiti tecnici
   11
        www.biostatistica.unich.it/.../
                                                                                                                  Pag. 15 di 52
Michele Rapillo                                                    Gli scarti... “tipi”... facili


L Fermo! Finora abbiamo parlato di popolazioni, quindi di un numero infinito di dati, ma io ho a
  che fare invece sempre con un numero limitato di dati, come la mettiamo? Come ci può aiutare
  Gauss?

M Questo stesso problema se lo è posto circa un secolo fa un tuo collega (nel senso che, come te in
  passato, anche lui lavorava in una fabbrica di birra) di nome W.S. Gosset, più noto sotto lo
  pseudonimo di “Student”.
  Proviamo a definire meglio il rapporto che lega i piccoli campioni e le popolazioni:
  supponiamo di conoscere il valore medio μ di una popolazione, se operiamo con un certo numero
  m di piccoli campioni (costituito ognuno da n elementi o unità statistiche), rappresentativi della
  popolazione, ci possiamo aspettare che la media di ogni campione abbia una certa distribuzione
  centrata intorno a μ e ci possiamo anche aspettare che la dispersione di tale distribuzione intorno
  alla media della popolazione dipenda dalla dimensione del campione (più grande il campione,
  migliore la stima di μ). In termini matematici si può dimostrare che lo scarto tipo delle medie che
  chiameremo s è uguale a

                                                     s=
                                                           n
   con n uguale al numero di elementi del campione. Questo riflette il fatto che la media tende ad
   essere meno variabile, ed in effetti se ci riferiamo alle medie invece che alle osservazioni singole
   l’espressione
                                     x μ                            x μ
                                Z=               diventa       Z=        .
                                                                     / n

   Le formule precedenti presuppongono che sia nota, cosa che per quanto riguarda i metodi di
   prova, non sempre è vera, come giustamente hai puntualizzato. Per ovviare a tale problema,
                                                                                      x μ
   Student propose di sostituire alla Z       della relazione precedente,    Z=            , il parametro
                                                                                       / n
        x μ
   t=                dove x e s rappresentano rispettivamente la media e lo scarto tipo del campione in
        s/ n
   esame, che sostituiti nella funzione di Gauss, restituiscono le stesse informazioni, ma su un
   campione limitato della popolazione.
   La distribuzione di Student è ancora simmetrica rispetto a μ ed è funzione dei gradi di libertà.

   E si può affermare che la distribuzione di                                                  =1
   Student ha fianchi più larghi, code più alte e                                               2
   varianza maggiore: in altri termini, facendo un                                              4
   paragone con le “curve femminili” è, come si
   dice a Roma, un po’ più tracagnotta della
   distribuzione normale.
                   All’aumentare dei gradi di libertà
              la distribuzione di Student approssima
                                        la gaussiana.

L Fermati, non ti lascio proseguire se non mi dici cosa sono i gradi di libertà.

                                                                                                       Pag. 16 di 52
Michele Rapillo                                                   Gli scarti... “tipi”... facili



M In generale si può dire che i gradi di libertà sono dati dal numero delle variabili meno il numero
  di vincoli.

L Mi sembra di parlare con un secondino, gradi di libertà, vincoli; tra poco mi parlerai di sbarre e
  sole a scacchi, fammi un esempio.

M Ti faccio un esempio tratto dal Perry’s12: quattro numeri in una tabella che deve avere la somma
  delle righe e delle colonne uguali a zero ha solo 1 grado di libertà (4 numeri e tre vincoli, in
  quanto il quarto è ridondante). Nelle situazioni più semplici (quasi sempre nel nostro caso) i gradi
  di libertà, generalmente indicati con , sono dati dal numero delle osservazioni meno uno.

L Perfetto! Ora sì.

M   Tornando al discorso relativo ai
    piccoli campioni, invece di calcolare                        =1
    la media di ogni gruppo, possiamo                             2
                                                                  3
    calcolare lo scarto tipo di ognuno di                         4
    essi: ci dobbiamo aspettare che tali
    stime di        abbiano una qualche
    distribuzione caratteristica.
     In particolare viene definita una
    distribuzione di (s2/ 2)* con       =
    gradi di libertà = n-1. Tale
    distribuzione è chiamata distribuzione
    chi-quadro ( 2) la cui forma dipende
    dalla numerosità del campione. Nel
    grafico sono mostrate le varie
    distribuzioni al variare di v.


L E a che serve?

M Serve a verificare la bontà dell’accordo tra dati sperimentali e dati teorici
  Il 2 può servire per valutare se la varianza 2 di una popolazione, dalla quale sia stato estratto un
  campione con varianza s2, sia uguale o diversa da un valore predeterminato 02 di una
  popolazione.

L Ma quante distribuzioni ci sono?

M Calmati, ancora una e abbiamo finito!
  Sempre proseguendo con lo stesso tema dei campioni con distribuzione normale, come
  rappresentativi di una popolazione, dobbiamo fare un’ultima considerazione. Invece di
  considerare la distribuzione delle singole varianze s2 dei campioni, possiamo considerare un
  altro tipo di distribuzione, che ancora coinvolge la stima della varianza della popolazione 2.
  Riferendoci ai nostri m campioni, possiamo calcolare di ognuno la s2i e quindi calcolare il
  rapporto tra quelli consecutivi (s21/ s22, s23/ s2 4, s2 5/ s2 6… ecc.
    12
         Perry’s Chemical Engineers’ Handbook McGraw Hill 1997
                                                                                                       Pag. 17 di 52
Michele Rapillo                                                                    Gli scarti... “tipi”... facili


   Ancora ci dobbiamo aspettare che questi rapporti abbiano una certa distribuzione di frequenza.
   Anche questa distribuzione dipende dalle dimensioni del campione. È da notare che i campioni
   possono non essere della stessa numerosità, in questo caso la forma della distribuzione dipende
   dalla numerosità dei campioni n1, n2, ... Tale distribuzione è definita come distribuzione di Fischer
   F( 1, 2).

                                                                                        (n1, n2) = (20, 2)
                                                                                                  (20, 4)
                                                                                                  (20, 8)
                                                                                                  (20, 16)




                                                        Distribuzione F

   Più precisamente, se due variabili sono indipendenti e distribuite come 2, allora il rapporto fra le
   due variabili, ciascuna divisa per il proprio numero di gradi di libertà, è distribuito secondo una
   distribuzione simile a quella in figura. Questa distribuzione è utile per determinare se due serie di
   dati, provenienti da una distribuzione normale, hanno la stessa dispersione (stessa varianza).
   Ovviamente anche per questa distribuzione esistono sia delle tabelle che delle funzioni di excel.

M In sintesi, se non l’hai ancora capito, testone, queste distribuzioni servono a determinare quale
  differenza ci si può aspettare tra varie quantità dovuta ad effetti casuali, o in altri termini per
  determinare se gruppi di dati differiscono da altri gruppi o da valori/valore ipotizzati. Ad esempio,
  se fissata una certa probabilità, la varianza del campione in esame può essere assunta come una
  stima dello varianza della popolazione (o se vuoi leggi scarti tipo invece di varianze).
  Ti riporto il riepilogo delle distribuzioni di cui abbiamo parlato

                     Distribuzione Simbolo                     Parametri                  Variabile
                                                       Singole osservazioni di una                 x μ
                         Gauss              z                 popolazione*               Z=

                                                                                                   x μ
                                            z                       Medie                Z=
                                                                                                    / n
                                                                                                   x μ
                        Student             t            Medie con       incognita*      t=
                                                                                                   s/ n
                                             2                                            2
                      Chi -quadro                                  Varianze*                  =       s2 /   2

                                                     Rapporto delle varianze di due F( 1,     2)   = s 2 1 /s 2 2
                         Fisher             F           campioni indipendenti*
                      * provenienti da una distribuzione normale
                                                               Riferimento12
M Ti ricordo che alla base di tutti questi discorsi ci sono due ipotesi: la prima è che stiamo operando
  in condizioni di ripetibilità stretta (in altri termini le variazioni sono dovute unicamente al caso),
  la seconda è che la distribuzione dei dati è normale.



                                                                                                                       Pag. 18 di 52
Michele Rapillo                                                    Gli scarti... “tipi”... facili



L Ferma la musica! Adesso si va a
  prendere il caffé, anzi, mentre
  andiamo ti voglio mostrare cosa ho
  trovato su una bancarella a
  Flohmarkt l’ultima volta che sono
  andato a Berlino.

M Ebbene? Cosa ha di strano questa
  banconota da meritare tanto
  interesse? A me sembra una
  normalissima     banconota  non
  dissimile da tutte le altre, di
  qualunque paese del mondo.

L E qui casca l’asino, perché se guardi
  l’altra faccia (forse) puoi capire il
  perché del mio interessamento!


M Grazie per il complimento e fammi guardare meglio la banconota.
  …. Ah! Ora capisco è una banconota dedicata a Gauss.




                                                                            Unica formula matematica
                                                                            riportata su una
                                                                            banconota:
                                                                            i 10 marchi tedeschi emessi
                                                                            nel 1991.




                                             Luis e i dubbi sulla distribuzione dei dati sperimentali

L Ora che abbiamo preso il caffé e ci siamo ristorati, mi viene in mente una cosa che non mi hai
  ancora detto. Come faccio a sapere se i dati di un campione sono distribuiti secondo una
  gaussiana?

M Mi aspettavo questa domanda e la risposta è semplice: il metodo migliore per piccoli e medi
  campioni è ritenuto il test di Shapiro-Wilk, che potrai trovare ben descritto nel Manuale 179/1
  dell’Unichim7 . Io ti parlerò invece del “normal probability plot”, un metodo grafico e “per puro
  sadismo” del test di Kolmogorov-Smirnov, applicabili praticamente a tutte le situazioni.
  La logica del probability plot è molto semplice: si tratta di porre in un sistema di assi cartesiani i
  quantili sperimentali normalizzati in relazione ai quantili teorici di una distribuzione gaussiana e
  disegnare la curva di correlazione. Se i dati di partenza sono distribuiti normalmente, la curva


                                                                                                       Pag. 19 di 52
Michele Rapillo                                                                                   Gli scarti... “tipi”... facili


      interpolatrice si avvicinerà ad una retta. Se i dati non si posizionano approssimativamente su una
      retta dobbiamo dedurre che la distribuzione non è normale.

                                        Esempio: campioni da una distribuzione normale




                                                                                            13
                                                                  normal probability plot

      Per quanto riguarda il test di Kolmogorov-Smirnov si verifica se la differenza massima tra le
      frequenze cumulate attese e sperimentali è inferiore ad un valore critico, per poter concludere
      che la distribuzione è normale.

L Chiaro e semplice, ottimo, mi piace, anche se spero che mi dirai cosa sono i quantili e le
  frequenze cumulate!
  Ma se i dati, normali o no, presentano dei dati anomali, come me ne accorgo, come mi devo
  comportare?
M Intanto chiariamo che un dato anomalo, o outlier, è un dato che giace fuori dal modello di
  distribuzione, un punto che non è ben interpolato dal modello stimato, ed è indice di qualche sorta
  di problema quale un risultato estremo, un errore di misura, un errore di trascrizione, ecc..
  Il Normal Probability plot ci può ancora aiutare nell’individuare i dati anomali, in quanto se la
  distribuzione non è ben interpolata con una retta, ma si notano alcuni punti non allineati, molto
  probabilmente quei punti rappresentano dei dati anomali; sempre da tale diagramma è possibile
  capire se vi sono dati anomali anche se tutti i dati sono ben allineati: è questo il caso di dati molto
  lontani dalla maggior parte di dati accentrati in prossimità della media.
  Per quanto riguarda il cosa fare dei dati anomali, in genere si tende ad eliminarli o a correggerli in
  relazione alle cause che li hanno determinati, ma non sono rari i casi in cui si accettano tal quali:
  in ogni caso ogni scelta deve essere ben argomentata e giustificata.
  Vi sono sistemi specifici per l’individuazione dei dati anomali: uno si basa sull’uso di particolari
  quantili, i ”quartili”, con tale metodo sono individuati come outliers i dati minori del primo
  quartile meno 1,5 volte il range interquartile o i dati maggiori del terzo quartile più 1,5 volte il
  range interquartile. Comunque il test più semplice ed al tempo stesso tra i più efficaci per
  l’individuazione dei dati anomali (o outlier) è il test di Huber.
  Come al solito su molti testi puoi trovare altri criteri sia della verifica di normalità (es. test di
  Shapiro Wilk) che della presenza di dati anomali (es. test di Dixon, test di Grubbs etc.)7

M Per tua comodità e per facilitarti il lavoro ti mostrerò dopo come verificare la normalità dei dati e
  come individuare i dati anomali con i criteri che ti ho appena descritto, utilizzando diversi
  semplici comandi di Excel.

13
     Guido Masarotto - Facoltà di scienze statistiche Università di Padova lezioni di inferenza statistica a.a. 2005-2006


                                                                                                                                          Pag. 20 di 52
Michele Rapillo                                                                                    Gli scarti... “tipi”... facili


                                                                                                      Luis e la distribuzione normale

L Ti ringrazio in anticipo per quanto mi metterai a disposizione, ma ora basta con le chiacchiere,
  anche se molto interessanti, e fammi capire con qualche esempio pratico.

M Ti propongo di utilizzare per gli esempi dei dati reali, così contemporaneamente potremo
  raggiungere il primo dei nostri obiettivi, che è il calcolo dello scarto tipo che ti interessa.

L OK, Partiamo dai dati.

M In primo luogo i dati da analizzare devono essere ottenuti in condizione di ripetibilità stretta.
  Quindi facciamo così: prendiamo un latte da analizzare ed invece di una sola determinazione
  chiediamo a Valentina di effettuare dieci repliche una dopo l’altra, senza modificare nessuna delle
  condizioni operative.

V14E ti pareva, loro fanno gli scienziati e Valentina produce i dati, o meglio Valentina li ha già
   prodotti.
   Mentre voi elaboravate le vostre teorie io ho effettuato 10 analisi in condizione di ripetibilità
   stretta su un latte con circa 150.000 cellule/ml: eccoli, tutti per voi, espressi in migliaia di
   cellule/ml:

                                143 131 120 135 149 128 133 131 135 136

L Sei un tesoro, adesso questi dati me li lavoro io. Innanzi tutto voglio verificare se sono distribuiti
  normalmente, usando il normal probability plot.
  A proposito, ma se non mi dici cosa sono i quantili non sono in grado di disegnarlo, e quindi datti
  una mossa!

M Ti riporto la definizione più semplice che ho letto:
   “L'idea alla base di un quantile-p (dove p è compreso tra 0 e 1) è di cercare un numero che sia
  più grande del 100 x p% dei dati osservati e più piccolo del restante 100 x (1 - p)%. Ad esempio,
  un quantile 0,1 deve essere un valore che lascia a sinistra il 10% delle osservazioni ed a destra
  il restante 90%.
  I quantili con p uguale a 0,25 - 0,50 e 0,75 vengono chiamati rispettivamente il primo, il secondo
  e il terzo quartile. Dividono la popolazione in quattro parti uguali. Si osservi che il 2° quartile
  coincide con la mediana. I quantili con p = 0,01;… ; 0,99 si chiamano percentili.”15
  Capirai meglio i quantili mentre costruiamo il normal probability plot:
  Dato un insieme di n valori sperimentali,
      1. si ordinano i dati in senso crescente
      2. si numerano i dati ordinati da 1 a n
      3. si calcola lo scarto tipo e la media dei valori sperimentali,
      4. si calcola per ogni valore sperimentale xi il corrispondente valore standardizzato della
          distribuzione normale Zi
                                                                         x μ
                                                                     Zi = i

   14
        V = Valentina
   15
        Masarotto Facoltà di scienze statistiche Università di Padova lezioni statistica descrittiva a.a 2001-2002
                                                                                                                                       Pag. 20 di 52
Michele Rapillo                                                                                                         Gli scarti... “tipi”... facili


         5. si calcola il rango di ogni dato ordinato in senso crescente (rango: brutta traduzione
             italiana dell'inglese rank, che significa posizione in graduatoria/classifica/ordine
             crescente)
         6. si calcolano le frequenze cumulate relative per ogni rango da 1 a n (la Frequenza
             Cumulata Relativa è uguale a (Rango(i) - 0,5)/n )
         7. si calcolano i valori della Z teorica relativa (quantili) ad ognuna delle frequenze cumulate
             relative,
         8. si riportano in un diagramma cartesiano i valori delle Zi (quantili) teoriche sull’asse delle x
         9. si riportano i corrispondenti valori delle Zi sperimentali sull’asse delle y
         10. si costruisce la retta che interpola i dati
         11. si valuta la bontà della correlazione lineare.

   Ovviamente tutto ciò può essere fatto con excel in particolare per ricavare i quantili e per
   costruire la retta interpolatrice in quanto excel restituisce oltre all’equazione della retta anche il
   coefficiente di correlazione r2 che è l’indice della bontà della correlazione (più r2 si avvicina a 1,
   migliore è la correlazione lineare).

L Scusa: perché hai usato per il calcolo della frequenza cumulata (Rango(i) - 0,5)/n invece di
  Rango(i) /n?

M Perché se avessimo usato Rango(i) /n, la frequenza cumulata massima sarebbe stata uguale ad 1 e
  quindi la relativa Z sarebbe stata uguale a (riferimento)13.

L Perfetto guarda cosa è venuto fuori dalle tue elucubrazioni, considera che ho seguito passo-passo
  ogni tua parola.
    A             B            C          D            E         F
                            quantili   rango      frequenze
                                                                                       quantili sperimentali




               dati       sperimentali            cumulate quantili
              ordinati       z (kp)                 relative teorici
    1           120           -1,78       1           0,05       -1,64
    2            128          -0,77        2          0,15       -1,04
    3            131          -0,39        3          0,25       -0,67
    4            131          -0,39        3          0,25       -0,67

    5            133          -0,14        5          0,45       -0,13
                 135                       6                                                                   quantili teorici                 y = 0,9768x + 0,0536
    6                          0,11                   0,55        0,13                                                                                2
                                                                                                                                                     R = 0,948
    7            135          0,11         6          0,55        0,13
    8            136          0,24         8          0,75        0,67          FORMULE EXCEL UTILIZZATE
                143                        9                                    Z=                                                ((Bi-media(Bi))/(dev.st(Bi))
    9                        1,13                    0,85        1,04
                149                        10                                   Freq. Cum. Rel =                                  [Di-0,5]/(totale dati)
    10                       1,88                    0,95        1,64           Quant. Teor =                                     INV.NORM.ST(Ei)
  Media        134,1                                                            Rango =                                           Rango ( )
                                                                                Scarto tipo =                                     dev.st( )
Scarto tipo    7,91


   In prima istanza i dati mi sembrano abbastanza ben interpolati da una retta, per cui deduco, per
   ora, che la distribuzione è normale. Tu che pensi?

M Ho verificato l’ipotesi di normalità dei dati con un software ad hoc, il software dell’UNICHIM 16
  che utilizza il test di Shapiro-Wilk, ebbene, il test conferma la distribuzione normale. Ti ricordo
  comunque che il test di Shapiro Wilk può essere utilizzato per un campione fino a 40 dati.
    16
         Software applicativo per l’elaborazione dei risultati analitici Milano 2006
                                                                                                                                                             Pag. 21 di 52
Michele Rapillo                                                                       Gli scarti... “tipi”... facili


    La stessa cosa ci dovremmo aspettare dal test di Kolmogorov Smirnov (che può essere utilizzato
    per campioni che hanno anche più di 40 dati).
    Per quanto riguarda tale test si opera come di seguito: si calcolano le frequenze cumulate
    sperimentali dei dati da analizzare (ipotizzando una distribuzione normale), si determinano quindi
    le frequenze cumulate relative teoriche per la distribuzione in questione e quindi se ne fa la
    differenza (punto per punto); se il valore della differenza massima è inferiore ad un valore critico
    tabulato, si conclude che la distribuzione è normale.
    Eccoti i risultati serviti caldi caldi.

  A          B        C          D                  E       F                                      Media                            134,10
                             frequenza         frequenza
            dati              cumulata         cumulata                                           Varianza                          62,54
indice                IzI   sperimentale rango teorica     I I                                   Scarto tipo                        7,91
          ordinati
                               (FCR)             (FCT)
                                                                                         Differenza Critica 95%                     0,409
   1       120         1,78     0,037      1       0,1     0,063                         Massima differenza Max                     0,205
   2       128         0,77     0,220      2      0,2      0,020
   3       131         0,39     0,348      3      0,3      0,048   Essendo la differenza massima = 0,2 < della differenza
   4       131         0,39     0,348      3      0,3      0,048   critica dc = 0,409 (ricavata dalla tabella) si deduce che la
   5       133         0,14     0,445      5      0,5      0,055   distribuzione è normale
   6       135         0,11     0,545      6      0,6      0,055
   7       135         0,11     0,545      6      0,6      0,055             frequenza teorica                 frequenza s perimentale
                                                                       1,2
   8       136         0,24     0,595      8      0,8      0,205
                                                                         1
   9       143         1,13     0,870      9      0,9      0,030
                                                                       0,8
  10       149         1,88     0,970     10       1       0,030
                                                                       0,6
FORMULE EXCEL UTILIZZATE
                                  )                                      0,4
Z=                   [(Bi-media(Bi) /dev.st(Bi)
FCR=                 Distrib.Norm(Bi;media;dev.st;VERO)                  0,2

FCT=                 rango/(n. dati)                                         0
 =                   ass(FCT-FCR)                                            0       2         4         6          8       10       12

Scarto tipo =        Dev.st.


L Ho la sensazione che tu manipoli i dati a tuo piacimento secondo le tue necessità: mi dai l’idea
  degli analisti politici, che riescono sempre ad ottenere le proiezioni di voto utili ai loro
  “mandanti”. Perché questa volta nel calcolo delle frequenze cumulate teoriche non hai sottratto il
  valore 0,5 come hai fatto in precedenza?

M Mi lusinghi, paragonandomi con gli esperti statistici dei nostri litigiosi esponenti politici, ma non
  ho fatto alcuna manipolazione. Non ho sottratto lo 0,5 in quanto in questo caso non era
  necessario.

L Da dove hai tirato fuori il valore critico?

M non è stato semplice, ma a seguito di una lunga ricerca su Internet, mi sono imbattuto in un sito
  che riportava la tabella seguente.




                                                                                                                                  Pag. 22 di 52
Michele Rapillo                                                                                     Gli scarti... “tipi”... facili



 Tabella valori critici di Kolmogorov Smirnov p=95%
  n         dc     n     dc     n       dc        n     dc      n     dc
  1        0,975   21   0,287   41    0,208       61   0,171   81    0,149
  2        0,842   22   0,281   42    0,205       62   0,170   82    0,148
                                                                                    0,450
  3        0,708   23   0,275   43    0,203       63   0,168   83    0,147          0,400
  4        0,624   24   0,269   44    0,201       64   0,167   84    0,146          0,350
                                                                                    0,300
  5        0,563   25   0,264   45    0,198       65   0,166   85    0,145          0,250
                                                                                    0,200
  6        0,519   26   0,259   46    0,196       66   0,164   86    0,144
                                                                                    0,150
  7        0,483   27   0,254   47    0,194       67   0,163   87    0,144          0,100
                                                                                    0,050
  8        0,454   28   0,250   48    0,192       68   0,162   88    0,143
                                                                                    0,000
  9        0,430   29   0,246   49    0,190       69   0,161   89    0,142                  0       10   20   30    40       50    60    70   80     90   100   110
                                                                                                                                                 -0,487
                                                                                                                                  y = 1,2649x
 10        0,409   30   0,242   50    0,188       70   0,160   90    0,141                      Serie1    Potenza (Serie1)
                                                                                                                                        R2 = 1
 11        0,391   31   0,238   51    0,187       71   0,159   91    0,140
 12        0,375   32   0,234   52    0,185       72   0,158   92    0,140
 13        0,361   33   0,231   53    0,183       73   0,156   93    0,139
 14        0,349   34   0,227   54    0,181       74   0,155   94    0,138
                                                                                 Per i dati da 10 a 100 ho anche calcolato
 15        0,338   35   0,224   55    0,180       75   0,154   95    0,137
                                                                                 per te la relazione che lega il numero di
 16        0,327   36   0,221   56    0,178       76   0,153   96    0,137
                                                                                 dati al valore critico; l'equazione è
 17        0,318   37   0,218   57    0,177       77   0,152   97    0,136
 18        0,309   38   0,215   58    0,175       78   0,151   98    0,135
                                                                                                         dn= 1,2649*n(-0,487)
 19        0,301   39   0,213   59    0,174       79   0,151   99    0,135
 20        0,294   40   0,210   60    0,172       80   0,150   100   0,134
                                                                                                     che per n > 100 diventa:
                                     Fonte
                                             17                                                          dn =1,358*n(-0,5)

                                                                                                                                   Luis e i dati anomali

L Va bene, mi hai convinto. Adesso dobbiamo vedere se ci sono dei dati anomali.
  Da una prima occhiata al normal probability plot credo che potrebbero essere anomali il primo e
  l’ultimo dato in quanto piuttosto lontani dagli altri dati, ma dimmi come è possibile in modo più
  rigoroso individuare gli outliers?

M Per individuare eventuali dati anomali possiamo utilizzare il test di Huber, che passo subito a
  descriverti:

  Si ordinano i dati                                     dati                ordinati   120, 128, 131, 131, 133, 135,135, 136, 143, 149
  Si calcola la mediana dei dati                                              mediana       = 134
  Si calcola la differenza tra ogni dato e la mediana (Di)                    Di            = 14, 6, 3, 3, 1, 1, 1, 2, 9, 15
  Si calcola la mediana delle differenze (Dm)                                 Dm            = 3
  Si calcola il prodotto Dm x 4,5                                             Dm x 4,5       = 3x4,5 = 13,5
  I valori per cui Di > Dm x 4,5 sono anomali                                 Valori anomali 120, 149

  Il procedimento può essere velocizzato ed automatizzato utilizzando semplici formule excel,
  come riportato di seguito.
  I dati ordinati sono ottenuti selezionando la colonna dei dati e quindi cliccando su “DATI” e
  successivamente scegliendo l’opzione “ORDINA”, le mediane sono calcolate con la formula
  MEDIANA(….) i residui sono calcolati con la formula =       Ass (B(i)-D(i)), i dati anomali sono
  evidenziati con la formula = SE(Ci-Di>0;Ci;"")

      17
           http://everything2.net/index.pl?node_id=1540620
                                                                                                                                                          Pag. 23 di 52
Michele Rapillo                                                      Gli scarti... “tipi”... facili



                             A          B           C            D                E
                     1      dati  dati ordinati   residui   Test Dm x 4,5 dati anomali
                     2      143        120          14           13,5          120
                     3      131        128           6           13,5
                     4      120        131           3           13,5
                     5      135        131           3           13,5
                     6      149        133           1           13,5
                     7      128        135           1           13,5
                     8      133        135           1           13,5
                     9      131        136           2           13,5
                     10     135        143           9           13,5
                     11     136        149          15           13,5          149
                     12                134           3
                     13
                          mediana
                                        Di          Dm
   Inoltre ho fatto una verifica con il software16 che ho utilizzato prima e ho avuto la conferma di
   questi dati anomali.

L Adesso, mi è tutto chiaro e devo riconoscere che finora hai mantenuto la parola, in quanto non hai
  mai fatto ricorso alle tabelle ma solo alle funzioni di excel, e quando sei stato costretto ad
  utilizzare la tabella di Kolmogorov-Smirnov, sei riuscito a trasformarla in una funzione.

                                                                                         Luis e lo scarto tipo

   Se ho ben capito quindi, a questo punto possiamo calcolare lo scarto tipo di ripetibilità con i dati
   di partenza!

M E no, i dati di partenza non vanno bene, in quanto, avendo individuato alcuni dati anomali,
  dobbiamo decidere se tenerli o se eliminarli. Io, considerato che i dati sono molto vicini al limite
  di accettabilità li terrei, anzi, ti propongo di calcolare lo scarto tipo, sia con tutti i dati senza
  quindi eliminare gli outliers, e quindi di calcolare lo scarto tipo eliminandoli.
  Il calcolo dello scarto tipo utilizzando tutti i dati è banale, basta utilizzare la formula di excel
  =dev.st(143;131;120;135;149;128;133;131;135;136) che dà come risultato sr=7,91

L Allora nell’altro caso basta utilizzare la stessa formula, dopo aver eliminato gli outliers!

M In genere si, ma è sempre opportuno verificare, se in assenza di tali dati la distribuzione è ancora
  normale. Nel nostro caso lo è, come si può facilmente arguire dalla tabella precedente, dove,
  essendo outliers i due dati estremi, i valori di Di e Dm non cambiano.
  Eliminando i due dati, si ottiene una sr=4,50. Considerato che se i dati eliminati fossero stati
  appena diversi es. 121 al posto di 120 e 147 al posto di 149, gli stessi dati non sarebbero risultati
  anomali. Alla luce di tali considerazioni, io accetterei i dati anomali nel calcolo dello scarto tipo,
  anche in virtù del fatto che i dati considerati sono delle misure affette da una incertezza ancorché
  incognita.
  Una conferma della accettabilità dei dati anomali è data dal fatto che la funzione della
  distribuzione cumulata assume per il dato 120 il valore di 0,037 e per il dato 149 il valore 0,97; in
  altri termini i due dati sono rispettivamente in zone della curva di Gauss > dell’ 1% e < 99%,
  ambiti nei quali gli outliers possono essere accettati.

                                                                                                         Pag. 24 di 52
Michele Rapillo                                                        Gli scarti... “tipi”... facili



                                                                              Luis e la verifica della media

L A questo punto mi chiedo: ma la media calcolata attraverso il nostro campione di 10 prove
  ripetute in condizione di ripetibilità stretta, è una stima credibile della media di una popolazione
  con le stesse caratteristiche?

M La risposta la dobbiamo cercare o dandoci un riferimento opportuno, che al momento non può che
  essere la specifica tecnica della FOSS, oppure ricorrendo a qualche considerazione statistica.

M Avendo appurato che i dati in nostro possesso hanno distribuzione normale, assumendo come lo
  scarto tipo ricavato per interpolazione dai dati della specifica tecnica della FOSS, chiamiamo la
  nostra media calcolata x , il problema che ci poniamo è con quanta precisione x può stimare μ, o
  in altri termini quale è il range dei valori che include, con una specificata probabilità, il valore
  vero μ. Dalla relazione + Z = x μ si ottiene con facili trasformazioni

                                    μ=x+Z                  μ= x +Z        x



                           ovvero   μ= x±Z ,
                                          n
                                                               ponendo        x= n

   Quindi, scegliendo un determinato livello di probabilità o di confidenza che determina il valore di
   Z, si ottiene :


                                           x   Z <μ< x+Z
                                                n        n
   Nel nostro caso avendo ottenuto da 10 misure il valore medio x = 134,1 e lo scarto tipo di
   ripetibilità s = 7,91 , utilizzando per il valore 8,57 (valore ricavato per interpolazione dai dati
   della FOSS), quale è l’intervallo nel quale ci dobbiamo aspettare di trovare la media vera μ della
   popolazione con una probabilità del 95%? In altri termini, essendo la distribuzione simmetrica
   rispetto a μ, qual è l’intervallo di confidenza tale per cui il solo il 2,5% dei valori è minore del
   limite inferiore di tale intervallo e il 2,5% dei valori è maggiore del limite massimo di tale
   intervallo? La soluzione del problema è banale, in quanto dalla formula di excel =
   INV.NORM.ST(0,975) si ottiene 1,96 (analogamente INV.NORM.ST(0,025), dà come risultato -
   1,96) che sostituiti nella precedente dà

                                    1,96 8,57                        1,96 8,57
                          134,1                    < μ < 134,1 +
                                          10                                  10
                                         128,8 < μ < 139,4
   In realtà è anche possibile calcolare direttamente l’intervallo di confidenza; in questo caso la
   sintassi è: =CONFIDENZA(alfa;dev_standard;dimens), con alfa = nel nostro caso = 0,05 si
   ottiene il valore di 5,31, che aggiunto e sottratto a 134,1, restituisce gli stessi risultati calcolati
   precedentemente (128,8 e 139,4).




                                                                                                           Pag. 25 di 52
Michele Rapillo                                                        Gli scarti... “tipi”... facili


L Il tuo esempio non mi convince del tutto, in quanto nel suo sviluppo non hai mai menzionato il
  birraio (Student), pur operando su un campione di solo dieci dati e non su una popolazione
  infinita.

M Non l’ho chiamato in causa in quanto non serviva, dato che abbiamo assunto come scarto tipo il
  valore 8,57 derivandolo dai dati della FOSS, e assumendolo come proveniente da una
  popolazione infinita, cosa che ci ha consentito di utilizzare la funzione di Gauss e le formule ad
  essa relative.
  Se supponiamo, invece sempre nello stesso esempio, di non conoscere                   in quanto non
  utilizziamo i dati della FOSS, allora dobbiamo far ricorso allo scarto tipo di ripetibilità s calcolato
  dal laboratorio dai risultati delle 10 ripetizioni e alla distribuzione di Student. In questo caso il
  limite di confidenza sarà espresso da
                                               s          s
                                       x t        <μ< x+t
                                                n          n
   La soluzione del problema è praticamente uguale alla precedente, con l’unica differenza di dover
   calcolare la t e di utilizzare la formula di excel =INV.T(0,05; 9) = 2,26 (la formula si riferisce ad
   una distribuzione di Student a due code) che sostituito nella precedente dà:
                                  2,26 7,91                         2,26 7,91
                          134,1                     < μ < 134,1 +
                                        10                                  10

                                        128,4 < μ < 139,8

   Da cui, come vedi, risulta un intervallo leggermente maggiore.
   In excel 2003 non è disponibile la formula per il calcolo diretto dell’intervallo di confidenza.
                                                                        Luis e la verifica dello scarto tipo

L Scusa, ma se invece voglio sapere se lo scarto tipo da me calcolato è una stima credibile dello
  scarto tipo vero (nel caso questo sia riportato ad esempio in un metodo di prova), cosa faccio?

M È questo il caso in cui ricorriamo alla distribuzione del 2.
  Supponiamo nel nostro caso di accettare come vero il valore di 8,57 della Foss.
  Dalla relazione 2(p, ) = s2/ 2 = (n-1)* s2/ 2, si ricava l’intervallo in cui deve essere compreso
  lo scarto tipo s
                                                                    2                              2
     2               (n 1) s 2     2                                    / 2; =n 1     s2           (1      / 2); =n 1
         / 2; =n 1        2       (1   / 2); =n 1    ovvero                              2
                                                                    n 1                                 n 1
                                                          2
   In questa relazione sono noti tutti i termini tranne , che possiamo calcolare da tabelle ad hoc, o
   utilizzando le formule di excel. Noi utilizziamo, ovviamente, excel.
   Scegliendo un livello di probabilità p = 95% e ricorrendo alla solita convenzione di indicare p =
   1- , p1 = /2 e        p2 =1- /2, si calcolano i due valori di 2, per p1 e p2 con le formule
   INV.CHI(0,025;9) e INV.CHI(0,975;9), che danno rispettivamente per il 2 i valori 2,70 e 19,02.
   Con semplici trasformazioni si ottiene che deve risultare s/ > [ 2( /2; 9)/ ] 1/2 e s/ < [ 2(1- /2;
         1/2
   9)/ ] .
   E sostituendo i valori numerici si ha che:


                                                                                                            Pag. 26 di 52
Michele Rapillo                                                                     Gli scarti... “tipi”... facili

                                                                            2
                                                          s 2 7,91
                                (n    1)          2
                                                       =9                        = 7,67
                                                              8,57
                                              2                                   2
   Pertanto, essendo tale valore < 19,02 (   1        / 2; =n 1   ) e > 2,70 (        / 2; =n 1 ),   il valore dello scarto tipo
   calcolato è compatibile con quello della FOSS.

L Vedo che hai mantenuto la tua parola, adesso però andiamo a prendere un bel caffé.


                                  Luis e il calcolo dello scarto tipo variabile con la concentrazione

M Buono quel caffé!
  Prima di andare avanti, facciamo il punto della situazione. Ti faccio notare che finora abbiamo
  determinato lo scarto tipo di ripetibilità solo per un tenore di cellule uguale a 134.000 cellule/ml e
  che la Foss dà tre valori diversi a 100.000, a 300.000 e a 500.000 cellule/ml. In altri termini lo
  scarto tipo di ripetibilità è funzione della concentrazione di cellule.

L Va bene, ma questo significa che dovremmo calcolare lo scarto tipo a tutti i livelli e quindi
  almeno da 100.000 cell/ml a 1.500.000 cell/ml.

M È esattamente quello che dobbiamo fare per poter determinare una relazione che leghi lo scarto
  tipo del laboratorio alla concentrazione di cellule somatiche.
  Chiediamo a Valentina di effettuare 10 determinazioni su campioni di latte che coprano il campo
  da 100.000 a 1.500.000 cellule/ml.

L Glielo chiedo subito. Ma noi ci rivediamo tra una settimana, perché devo anche lavorare, tu
  intanto leggiti questo sonetto e medita sulla statistica:




                                                                                                                        Pag. 27 di 52
Michele Rapillo                                    Gli scarti... “tipi”... facili




                             LA STATISTICA


                     Sai ched'è la statistica? È na' cosa
                    che serve pe fà un conto in generale
                    de la gente che nasce, che sta male,
                  che more, che va in carcere e che spósa.

                       Ma pè me la statistica curiosa
                       è dove c'entra la percentuale,
                  pè via che, lì, la media è sempre eguale
                       puro co' la persona bisognosa.

                     Me spiego: da li conti che se fanno
                       seconno le statistiche d'adesso
                   risurta che te tocca un pollo all'anno:

                      e, se nun entra nelle spese tue,
                      t'entra ne la statistica lo stesso
                  perch'è c'è un antro che ne magna due


                                                  Trilussa




                                                                                    Pag. 28 di 52
Michele Rapillo                                                               Gli scarti... “tipi”... facili


 M Ciao Luis, Valentina è riuscita a fare le analisi come avevamo concordato?

L Sì ecco i dati già in ordine crescente

             serie      1      2     3     4           5      6      7      8         9       10       11
                       180    297   720   127      650       435    493    198      530      1022    1413
                       186    300   733   128      655       445    530    200      541      1025    1421
                       187    306   740   131      655       449    551    201      545      1031    1423
                       187    309   745   132      659       449    552    214      548      1034    1424
              Valori




                       188    312   750   133      665       456    552    216      556      1047    1428
                       190    318   759   135      670       460    554    216      559      1051    1432
                       194    320   764   135      683       460    555    217      561      1055    1441
                       197    323   765   136      684       462    561    221      562      1056    1454
                       197    323   775   140      688       464    567    221      568      1067    1479
                       200    324   780   145      700       480    571    221      572      1070    1487

M Molto bene.
  Ognuna di queste 11 serie dovrebbe essere sottoposta allo stesso procedimento che abbiamo usato
  prima e cioè:

      • verificare che siano normali,
      • individuare i valori anomali
      • decidere cosa fare dei valori anomali
      • calcolare la media di ogni serie
      • calcolare lo scarto tipo di ogni serie


   e quindi calcolare la relazione che lega gli scarti tipo ai vari livelli.
   Supponiamo per un istante di avere fatto tutto questo e chiamiamo sr il generico scarto tipo e x r
   le medie corrispondenti.
   Possono verificarsi due casi:

   a) sr non varia sensibilmente al variare di x r
   b) sr varia al variare di x r
   Nel caso a) è sufficiente calcolare la media quadratica pesata s r degli scarti tipo nel seguente
   modo

                               (n1 =1)sr1 + (n2 =1)sr22 + (n3 =1)sr23 + .......(nn =1)srn
                                       2                                               2
                       sr =
                                          (n1 =1) + (n2 =1) + ........(nn =1)

   Nel caso b) si ricerca la relazione funzionale che lega sr a x r

   Il criterio che determina la validità del caso a) o del caso b) si basa sul seguente test di Fisher

                                           s r2(max)
                                                           F p=1   ; max, min
                                           s r2(min)
                                                                                                                  Pag. 29 di 52
Michele Rapillo                                                  Gli scarti... “tipi”... facili


  dove    s r2(max) e s r2(min) sono rispettivamente la varianza massima e minima ed Fp; max , min è la
  variabile di Fisher, il cui valore è riportato in tabelle (ma vedremo anche in excel) in funzione di
    e di max = min = ni-1 essendo n il numero delle prove valide eseguite ad ogni livello. Il test
  può ancora essere utilizzato se il numero ni non è lo stesso per tutte le prove ma varia rispetto al
  valore medio di poco es. + 1.
  Un altro test utilizzabile (meno restrittivo, ma più complesso) è il test di Bartlett7

  A questo punto, se siamo nel primo caso, il problema non si pone, se siamo nel secondo caso,
  excel ci consente di calcolare la relazione che lega lo scarto tipo alla media.

L Bene, quindi applicando la tua teoria adesso io determino, utilizzando il normal probability plot,
  se i dati di Valentina sono tutti distribuiti normalmente e se vi sono dati anomali, mentre tu fai
  quattro chiacchiere con Fabrizio che prima ti ha cercato.

M Ciao Luis, come siamo messi?

L Ho riportato tutti i dati sul normal probability plot, ho tracciato con excel le 11 rette di
  correlazione ed ho determinato, sempre con excel il coefficiente di correlazione r2 di ogni retta. I
  risultati sono stati i seguenti:

                serie  1    2    3    4    5    6    7    8    9   10 11
                  r2 0,94 0,89 0,96 0,95 0,93 0,96 0,73 0,77 0,95 0,95 0,89

  Ho quindi deciso di ritenere non accettabili i dati con un coefficiente di correlazione minore di
  0,89 e quindi ho scartato le serie 7 e 8.

  Per quanto riguarda infine i dati anomali, da una prima occhiata al probability plot, l’unica serie
  che mi dato l’impressione di avere dati anomali è stata la 11, ed a questa ho applicato il test di
  Huber, che ha evidenziato come dati anomali il 1479 e il 1487; prima di eliminarli però ho
  calcolato la media e lo scarto tipo di ogni serie, e poiché l’eliminazione di entrambi i dati mi
  avrebbe evidenziato anche il 1454 come dato anomalo, e mi avrebbe restituito uno scarto tipo di
  8,86, cosa ovviamente improbabile se paragonata alle altre s, ho deciso di eliminare solo 1487,
  cosa che mi ha portato alla seguente situazione.

             serie   1       2       3       4     5     6         9       10          11
                    180     297     720     127   650   435       530     1022        1413
                    186     300     733     128   655   445       541     1025        1421
                    187     306     740     131   655   449       545     1031        1423
                    187     309     745     132   659   449       548     1034        1424
              Valori




                    188     312     750     133   665   456       556     1047        1428
                    190     318     759     135   670   460       559     1051        1432
                    194     320     764     135   683   460       561     1055        1441
                    197     323     765     136   684   462       562     1056        1454
                    197     323     775     140   688   464       568     1067        1479
                    200     324     780     145   700   480       572     1070
             media 190,6   313,2   753,1   134,2 670,9 456       554,2   1045,8     1440,2
              sr   6,22    9,92    18,99   5,39 16,926 12,33     13,01   17,023     20,42

                                                                                                     Pag. 30 di 52
Michele Rapillo                                                                        Gli scarti... “tipi”... facili


  A questo punto dobbiamo applicare il test di Fisher, per poter affermare con sicurezza quello che
  a prima vista sembra evidente, cioè se lo scarto tipo varia sensibilmente al variare della media.
  Come si fa?

                                                     2
                                                s r (max)
M Dobbiamo ricorrere alla relazione                  2
                                                               Fp=1     ; max, min
                                                 s   r (min)
                                                                                                                        2
                                   2                      2             2                2                            s r (max)
  Nel nostro caso essendo s        r (max)   = (20,42) = 417 e s        r (min)   = (5,39) = 29,1 si ha che             2
                                                                                                                                  = 14,35
                                                                                                                      s r (min)
  per il calcolo di F ricorriamo ancora una volta ad excel operando come segue:
                                                                                                    2
  •     fissata una probabilità del 5%, poiché il numero di dati relativi a s r (max) è 9 e il numero di dati
                        2
        relativi a s r (min) è 10, si ha che     (max)   =8e    (min)   = 9.

  •     Dalla funzione excel INV.F(0,05;8;9) si ottiene F = 3,23.
                  2
                 s r (max)
  Essendo       2
                        = 14,35 > 3,23 si deduce che le varianze, come ci aspettavamo, sono
              s r (min)
  significativamente diverse al variare della media del campione da cui derivano.

  Questa situazione ci impone di ricercare la funzione che meglio interpola le s in funzione delle
  medie, ricorrendo ancora una volta ad excel.
  Dal comando “inserisci grafico” si sceglie la “dispersione xy” e si inseriscono come x i valori
  delle medie e come y i valori degli scarti tipo, quindi si clicca sul comando “inserisci linea di
  tendenza”.
  Excel consente di disegnare diverse linee di tendenza restituendone anche l’equazione e il
  coefficiente di correlazione r2, noi abbiamo considerato le seguenti:

                        Tipo di regressione                    Equazione                                         r2
                Regressione lineare che passa per lo 0        s = 0,0187x                                      0,3873
                 Regressione lineare con intercetta       s = 0,016x + 6,1768                                  0,8134
                     Regressione esponenziale               s = 6,6689e0,001x                                  0,7314
                       Regressione di potenza               s = 0,2934x0,6023                                  0,9435
                      Regressione logaritmica          s = 6,7758Ln(x) - 28,569                                0,9376

  La relazione da scegliere è ovviamente quella che presenta il valore di r2 più prossimo ad 1 e
  quindi la regressione di potenza.

L Va bene, tu sai quanto ti stimo, ma a questo punto sarei molto più tranquillo se potessimo
  effettuare una verifica indipendente dei nostri calcoli.

M Conoscendoti, ho portato con me uno strumento molto interessante, che può aiutarci allo scopo, il
  prezioso software dell’UNICHIM16

L E che aspettiamo ad usarlo?

M Guarda, che finora l’ho già usato diverse volte. Lo usiamo anche adesso.
                                                                                                                              Pag. 31 di 52
Michele Rapillo                                                 Gli scarti... “tipi”... facili


Il procedimento è semplice:

•     inseriamo i dati, premiamo il tasto calcoli e premiamo il tasto “test di normalità” ed ecco il
      risultato dove sono evidenziati in rosso i dati anomali




La settima e l’ottava serie non hanno una distribuzione normale, per cui le dobbiamo eliminare e
rifare il calcolo.




Dal nuovo calcolo non emergono serie non normali, ma è evidenziato un dato anomalo che
eliminiamo e, rifacendo il calcolo otteniamo:




                                                                                                     Pag. 32 di 52
Michele Rapillo                                                    Gli scarti... “tipi”... facili




M A questo punto dobbiamo decidere cosa fare dell’ulteriore dato anomalo. Se lo eliminiamo
  otteniamo uno scarto tipo pari a 12,9, che è molto più basso di quello per una media di 1000
  cellule.
  Inoltre se eliminiamo anche questo dato anomalo ci troveremo in una condizione estremamente
  favorevole, nel senso che, eliminandolo, ci dobbiamo aspettare un CV% molto basso che quindi
  potrebbe non rispecchiare la variabilità vera delle risposte analitiche. D’altro canto tu mi insegni
  che la conta delle cellule somatiche può dipendere anche dalle altre caratteristiche del latte
  (grasso, proteine, indice crioscopico, ecc.).    Fatte queste considerazioni ti propongo di non
  eliminare il valore 1479.

  A questo punto continuiamo con il nostro calcolo, sfruttando le ulteriori caratteristiche del
  software UNICHIM16 ed effettuando quindi un confronto tra le varianze, che risultano non
  omogenee tra di loro.
  In particolare, leggi cosa riporta il manuale che accompagna il software:

   La disomogeneità delle varianze che si evidenzia è una conseguenza diretta della situazione per
   cui la variabilità delle misure aumenta col crescere della concentrazione, il cui livello è espresso
   dalla media: si deve allora studiare una possibile relazione funzionale fra scarto tipo e media
   delle diverse serie (colonne) di dati, che consenta di calcolare lo scarto tipo, e quindi la
   ripetibilità, anche per concentrazioni diverse da quelle dei campioni sottoposti alle misure
   replicate.
   Viene allora effettuata un'ulteriore elaborazione, che sul foglio DATI2 mostra oltre ai dati
   ordinati e alle statistiche base già rilevate in precedenza – i risultati del calcolo delle regressioni
   fra scarto tipo e media secondo tre diversi modelli:
   - regressione lineare che passa per lo 0 ( y = bx )
   - regressione lineare con intercetta ( y = a + b x )
   - regressione doppio-logaritmica ( logy = c + d logx )

   La riga inferiore di ciascuna sezione contiene gli scarti tipo calcolati in base all'equazione di
   regressione in funzione dei valori delle relative medie (riga 14). Secondo il criterio suggerito, è
   da preferire quel modello (equazione) per cui la somma dei quadrati delle differenze fra lo

                                                                                                       Pag. 33 di 52
Michele Rapillo                                                       Gli scarti... “tipi”... facili


   scarto tipo calcolato e misurato (riga 15) risulta minimo. Questa SQ (somma dei quadrati)
   minima viene evidenziata sul foglio.

   I risultati di tale elaborazione sono i seguenti:




M La relazione è quindi:
                                         y = 0,6023x - 0,5325

  dove, avendo posto y = log(s) e x = log(x), si ha che lo scarto tipo di ripetibilità è espresso dalla
  relazione

                                              S = 10(c+d*log(x))
  Che con i dati ottenuti
                         c = -0,5323 -       d = 0,6023 - x = tenore di cellule
  diventa
                                           s = 10 (0,6023logx -0,5325)

  ricordando alcune elementari proprietà dei logaritmi e delle potenze, con semplici manipolazioni
  si ottiene
                                          s = 0,2934x0,6023

  che è esattamente uguale a quella da noi calcolata per altra via utilizzando la correlazione di
  potenza in excel.
  Ad un’analisi più attenta, si rileva che le altre equazioni presentano una certa differenza, ma la
  cosa è praticamente irrilevante in quanto, la retta di correlazione passante per l’origine ha un r2 =
  0,39 e quindi indica una mancanza di correlazione, mentre quella con intercetta ha un r2 = 0,81,
  indice di una correlazione quasi accettabile, differisce da quella dell’UNICHIM in quanto dà
  risultati in alcuni casi migliori in altri peggiori, come si può vedere dalla tabella seguente.



                                                                                                          Pag. 34 di 52
Michele Rapillo                                                                                  Gli scarti... “tipi”... facili



                           media                  190,60     313,20     753,10    134,20    670,90     456,00    554,20 1045,80 1435,00
                      scarto tipo vero              6,22      9,92      18,99      5,39      16,92     12,33     13,01     17,03      20,42
             Scarto tipo calcolato UNICHIM:         6,79      8,57      14,94      5,98      13,75     10,64     12,06     19,18      24,82
              Scarto tipo calcolato con excel       8,39      9,81      14,91      7,73      13,96     11,47     12,61     18,31      22,82

                 differenza % UNICHIM              9,17%    -13,62% -21,32% 10,84% -18,75% -13,73% -7,32% 12,63%                     21,52%
                   differenza % EXCEL             23,48% 14,49%         -0,18%   29,42%     1,53%      7,80%     4,54%     -4,54%    -8,03%

      Ti basta questa verifica?

L Si, molto bene, poi mi dici come posso fare per acquisire il software dell’UNICHIM16.

M Questo te lo dico subito: basta che tu telefoni all’UNICHIM allo 02/76004450 o ti colleghi al sito
  http://www.unichim.it.

      Ma continuando con i nostri calcoli; a questo punto, per completare la prima parte del nostro
      lavoro dobbiamo calcolare il limite di ripetibilità e il CV% che al 95% di probabilità è espresso
      come:

                                                                r = t1 0,95;n 1 S r 2

      Dove t al 95% con n-1 = = 8 gradi di libertà (n = numero di dati della serie con minor numero di
      dati) può essere calcolato da excel con la formula =INV.T(0,05;9) e quindi sostituendo il valore
      trovato nella precedente si ha
                                                                 r = 2,306 S r 2
      Dove Sr si ricava dalla formula precedentemente determinata

                                                                     Sr = 0,2934x0,6023

      A questo punto possiamo determinare il CV.
      Con semplici passaggi si ha che

                                            CV= s/x = 0,2934 *x(-1)x0,6023 = 0,2934*x(-0,3977)

      E con questo la prima parte del nostro lavoro si può considerare completata in quanto abbiamo
      calcolato tutti i parametri che ci interessavano.

L E no! Come sai bene uno dei criteri per il controllo della qualità di un risultato di prova è
  l’effettuazione di una prova in doppio, e con quello che abbiamo detto, la situazione è
  abbastanza complicata, come possiamo fare?

M Per le prove in doppio, nel nostro caso e con un livello di confidenza del 95%, vale la relazione18


18
     N. Bottazzini e L. Cavalli Guida al calcolo della ripetibilità di un metodo di prova ed alla sua verifica nel tempo Seminario SINAL, settembre 2007




                                                                                                                                          Pag. 35 di 52
Incertezzadimisura sinal-scarti-rapillo
Incertezzadimisura sinal-scarti-rapillo
Incertezzadimisura sinal-scarti-rapillo
Incertezzadimisura sinal-scarti-rapillo
Incertezzadimisura sinal-scarti-rapillo
Incertezzadimisura sinal-scarti-rapillo
Incertezzadimisura sinal-scarti-rapillo
Incertezzadimisura sinal-scarti-rapillo
Incertezzadimisura sinal-scarti-rapillo
Incertezzadimisura sinal-scarti-rapillo
Incertezzadimisura sinal-scarti-rapillo
Incertezzadimisura sinal-scarti-rapillo
Incertezzadimisura sinal-scarti-rapillo
Incertezzadimisura sinal-scarti-rapillo
Incertezzadimisura sinal-scarti-rapillo
Incertezzadimisura sinal-scarti-rapillo
Incertezzadimisura sinal-scarti-rapillo

More Related Content

What's hot

Nanotechnology question bank part 1
Nanotechnology   question bank part 1Nanotechnology   question bank part 1
Nanotechnology question bank part 1biswasanjib
 
X-Ray Diffraction and Diffraction Methods BASICS
X-Ray Diffraction and  Diffraction Methods BASICSX-Ray Diffraction and  Diffraction Methods BASICS
X-Ray Diffraction and Diffraction Methods BASICSMelwin Dmello
 
WORKING OF SEM: SCANNING ELECTRON MICROSCOPE
WORKING OF SEM: SCANNING ELECTRON MICROSCOPEWORKING OF SEM: SCANNING ELECTRON MICROSCOPE
WORKING OF SEM: SCANNING ELECTRON MICROSCOPEMousam Choudhury
 
COMSOL Multiphysics: Simulation and Development Toolbox for Clusters
COMSOL Multiphysics: Simulation and Development Toolbox for ClustersCOMSOL Multiphysics: Simulation and Development Toolbox for Clusters
COMSOL Multiphysics: Simulation and Development Toolbox for ClustersIntel IT Center
 
MECHANICAL & THERMAL PROPERTIES OF NANO COMPOSITES
MECHANICAL & THERMAL PROPERTIES OF NANO COMPOSITESMECHANICAL & THERMAL PROPERTIES OF NANO COMPOSITES
MECHANICAL & THERMAL PROPERTIES OF NANO COMPOSITESArjun K Gopi
 
Carbon containing Nanomaterials: Fullerenes & Carbon nanotubes
Carbon containing Nanomaterials: Fullerenes & Carbon nanotubesCarbon containing Nanomaterials: Fullerenes & Carbon nanotubes
Carbon containing Nanomaterials: Fullerenes & Carbon nanotubesMayur D. Chauhan
 
Computer generated time standards
Computer  generated time standardsComputer  generated time standards
Computer generated time standardsVenu Yadav
 
Crystal structure
Crystal structureCrystal structure
Crystal structureParth Patel
 
Ms infrared spectroscopy
Ms infrared  spectroscopyMs infrared  spectroscopy
Ms infrared spectroscopyMISHUSINGH1
 

What's hot (20)

X ray diffraction
X ray diffractionX ray diffraction
X ray diffraction
 
xrd raman uv vis ft-ir
xrd raman uv vis ft-irxrd raman uv vis ft-ir
xrd raman uv vis ft-ir
 
Nanotechnology question bank part 1
Nanotechnology   question bank part 1Nanotechnology   question bank part 1
Nanotechnology question bank part 1
 
X-Ray Diffraction and Diffraction Methods BASICS
X-Ray Diffraction and  Diffraction Methods BASICSX-Ray Diffraction and  Diffraction Methods BASICS
X-Ray Diffraction and Diffraction Methods BASICS
 
WORKING OF SEM: SCANNING ELECTRON MICROSCOPE
WORKING OF SEM: SCANNING ELECTRON MICROSCOPEWORKING OF SEM: SCANNING ELECTRON MICROSCOPE
WORKING OF SEM: SCANNING ELECTRON MICROSCOPE
 
X ray diffraction(xrd)
X ray diffraction(xrd)X ray diffraction(xrd)
X ray diffraction(xrd)
 
COMSOL Multiphysics: Simulation and Development Toolbox for Clusters
COMSOL Multiphysics: Simulation and Development Toolbox for ClustersCOMSOL Multiphysics: Simulation and Development Toolbox for Clusters
COMSOL Multiphysics: Simulation and Development Toolbox for Clusters
 
Rp Rapid prototyping
Rp Rapid prototyping Rp Rapid prototyping
Rp Rapid prototyping
 
Metallic nanoparticle
Metallic nanoparticleMetallic nanoparticle
Metallic nanoparticle
 
Unit III ADVANCES IN METROLOGY
Unit III ADVANCES IN METROLOGYUnit III ADVANCES IN METROLOGY
Unit III ADVANCES IN METROLOGY
 
MECHANICAL & THERMAL PROPERTIES OF NANO COMPOSITES
MECHANICAL & THERMAL PROPERTIES OF NANO COMPOSITESMECHANICAL & THERMAL PROPERTIES OF NANO COMPOSITES
MECHANICAL & THERMAL PROPERTIES OF NANO COMPOSITES
 
Carbon containing Nanomaterials: Fullerenes & Carbon nanotubes
Carbon containing Nanomaterials: Fullerenes & Carbon nanotubesCarbon containing Nanomaterials: Fullerenes & Carbon nanotubes
Carbon containing Nanomaterials: Fullerenes & Carbon nanotubes
 
Uv visible spectroscopy
Uv visible spectroscopyUv visible spectroscopy
Uv visible spectroscopy
 
Atomic force microscopy
Atomic force microscopyAtomic force microscopy
Atomic force microscopy
 
Computer generated time standards
Computer  generated time standardsComputer  generated time standards
Computer generated time standards
 
Atomic absorption spectroscopy
Atomic absorption spectroscopyAtomic absorption spectroscopy
Atomic absorption spectroscopy
 
Crystal structure
Crystal structureCrystal structure
Crystal structure
 
Single Crystal
Single Crystal Single Crystal
Single Crystal
 
Ms infrared spectroscopy
Ms infrared  spectroscopyMs infrared  spectroscopy
Ms infrared spectroscopy
 
Nano Indentation Lecture1
Nano Indentation Lecture1Nano Indentation Lecture1
Nano Indentation Lecture1
 

Similar to Incertezzadimisura sinal-scarti-rapillo

Manuale tascabile sulla gestione non violenta dei conflitti e sulla mediazion...
Manuale tascabile sulla gestione non violenta dei conflitti e sulla mediazion...Manuale tascabile sulla gestione non violenta dei conflitti e sulla mediazion...
Manuale tascabile sulla gestione non violenta dei conflitti e sulla mediazion...ideaTRE60
 
Eventmag Febbraio 2009
Eventmag Febbraio 2009Eventmag Febbraio 2009
Eventmag Febbraio 2009guest9a1bc346
 
Gf K Eurisko Cinqueminuti 45 Marzo 2012
Gf K Eurisko Cinqueminuti 45 Marzo 2012Gf K Eurisko Cinqueminuti 45 Marzo 2012
Gf K Eurisko Cinqueminuti 45 Marzo 2012Must Srl
 
Collection sms
Collection smsCollection sms
Collection smsEtikalab
 

Similar to Incertezzadimisura sinal-scarti-rapillo (13)

JM-Just Move - n.2 Aprile 2014
JM-Just Move - n.2 Aprile 2014JM-Just Move - n.2 Aprile 2014
JM-Just Move - n.2 Aprile 2014
 
Pedagogia della lumaca
Pedagogia della lumacaPedagogia della lumaca
Pedagogia della lumaca
 
Manuale tascabile sulla gestione non violenta dei conflitti e sulla mediazion...
Manuale tascabile sulla gestione non violenta dei conflitti e sulla mediazion...Manuale tascabile sulla gestione non violenta dei conflitti e sulla mediazion...
Manuale tascabile sulla gestione non violenta dei conflitti e sulla mediazion...
 
athenet_dicembre2005
athenet_dicembre2005athenet_dicembre2005
athenet_dicembre2005
 
athenet_dicembre2005
athenet_dicembre2005athenet_dicembre2005
athenet_dicembre2005
 
athenet_dicembre2005
athenet_dicembre2005athenet_dicembre2005
athenet_dicembre2005
 
Eventmag n.3
Eventmag n.3Eventmag n.3
Eventmag n.3
 
Eventmag Febbraio 2009
Eventmag Febbraio 2009Eventmag Febbraio 2009
Eventmag Febbraio 2009
 
N 16 febbraio 2012
N 16 febbraio 2012N 16 febbraio 2012
N 16 febbraio 2012
 
N 16 febbraio 2012
N 16 febbraio 2012N 16 febbraio 2012
N 16 febbraio 2012
 
N. 29 aprile 2013
N. 29 aprile 2013N. 29 aprile 2013
N. 29 aprile 2013
 
Gf K Eurisko Cinqueminuti 45 Marzo 2012
Gf K Eurisko Cinqueminuti 45 Marzo 2012Gf K Eurisko Cinqueminuti 45 Marzo 2012
Gf K Eurisko Cinqueminuti 45 Marzo 2012
 
Collection sms
Collection smsCollection sms
Collection sms
 

Incertezzadimisura sinal-scarti-rapillo

  • 1. Gli scarti .... “tipi”… facili ( x x )2 1 2 2 f (x) = e 2 dove si narra dell’utilizzo di excel per il calcolo della ripetibilità e dell’incertezza delle misure variabili con la concentrazione Michele Rapillo
  • 2. Michele Rapillo Gli scarti... “tipi”... facili © 2008 Proprietà letteraria riservata. SINAL Sistema Nazionale per l’Accreditamento di Laboratori Piazza Mincio 2, 00198 Roma Tel. 06 8440991 Fax 06 8841199 www.sinal.it Questa pubblicazione può essere liberamente riprodotta, citando la fonte. Ne è vietata la riproduzione a fini commerciali. Edizione luglio 2008. Pag. 2 di 52
  • 3. Michele Rapillo Gli scarti... “tipi”... facili a Teresa per aver dimostrato che la certezza esiste. Pag. 3 di 52
  • 4. Michele Rapillo Gli scarti... “tipi”... facili Ringrazio Nicola Bottazzini per i preziosi suggerimenti, per l’utilissimo materiale messo a disposizione e per la revisione generale del presente documento; Fabrizio Francia e il gruppo Francia Latticini per aver consentito la pubblicazione di importanti e riservati dati aziendali; Luis Vizcarra, spalla impagabile, “per essersi prestato al gioco”; Emma Angelini Bianco per il contributo da lettore che è passato dall’incertezza alla certezza; Paolo Bianco per l’attenta revisione del testo ed il supporto alla pubblicazione. Michele Rapillo Pag. 4 di 52
  • 5. Michele Rapillo Gli scarti... “tipi”... facili Presentazione Nel lungo e talvolta tortuoso itinerario della valutazione dell’incertezza di misura non a tutti è dato di procedere speditamente. Certamente ci riesce Michele Rapillo che può avvalersi di una lunga e diversificata esperienza operativa per fare da “Guida” a tutti coloro che in Laboratorio, alle prese con un determinato test analitico, debbono necessariamente produrre un risultato completo. Come in un’escursione lungo un aspro sentiero di montagna, in due si procede meglio e Rapillo ha appunto scelto di procedere assieme ad un compagno di escursione, simpatico ma, come spesso capita nella vita, alquanto arrugginito per quanto riguarda i ricordi universitari relativi ad errori, scarti, gaussiane eccetera, che vengono opportunamente sintetizzati.. L’ing. Rapillo, forte anche della sua attuale posizione di autorevole membro del Comitato di Accreditamento del SINAL che assai spesso si trova alle prese con Laboratori di Prova che della determinazione dell’incertezza di misura farebbero volentieri a meno, con pazienza e perizia incoraggia e spinge sulla buona strada non solo il suo interlocutore, ma anche tutti coloro che vorranno intraprendere la lettura di questa “Guida” che si rivela preziosissima bussola per entrare in confidenza con una componente essenziale della misura di laboratorio. Pertanto a tutti coloro che operano in Laboratori di Prova ed in particolare a quelli che sono impegnati nelle operazioni relative all’accreditamento, consigliamo fortemente la lettura di queste pagine: una lettura che sarà di grande giovamento per il loro lavoro e che per di più li farà spesso sorridere. Antonio Paoletti Presidente SINAL Pag. 5 di 52
  • 6. Michele Rapillo Gli scarti... “tipi”... facili Introduzione Che cosa ci può essere di facile nel concetto di scarto tipo, varianza, chi-quadro? La domanda sorgerà spontanea nella mente di alcuni fra coloro che, nei loro laboratori, si sono trovati qualche volta a contatto con problematiche di validazione di metodi di prova e quindi con la determinazione di ripetibilità ed incertezza delle misure. Per quelli che hanno frequentato corsi specifici sull’incertezza di misura, lo scarto tipo non risulterà così misterioso ed a maggior ragione non lo sarà per gli appassionati lettori delle numerose pubblicazioni sull’argomento: dalla GUM (o UNI ENV 13005) con le sue appendici (centinaia di pagine) in emissione, alla guida EURACHEM (anzi adesso 3 guide), alla guida EUROLAB, e alla documentazione varia che si può trovare in rete. D’altronde chi solo saltuariamente ha occasione d’incontrare questa problematica ne fa spesso la conoscenza in modo disorganico e confuso, tra approccio top-down e bottom-up, olistico ed Horwitz, tra scarto tipo giustappunto e scarto tipo della media, oscuri contributi ottenuti con valutazioni di tipo A e B, e finisce per considerarla piena, non già di risvolti interessanti, ma piuttosto di noia e fastidio, come accade per gli argomenti ostici che si è costretti ad imparare più o meno a memoria perché non sembrano avere un’essenza da cogliere. Tra l’altro le guide sparano questi riferimenti al lettore come se questi avesse appena terminato con profitto un corso avanzato di statistica, gettandolo nel panico alla ricerca di vecchi testi di scuola, tabelle di dati, solo citate e mai riportate nei documenti (come se il lettore fosse seduto su una pila di testi di statistica). Inoltre, anche se Bertolt Brecht afferma che: “Di tutte le cose sicure la più certa è il dubbio”, un’approfondita riflessione sul concetto di incertezza può generare inquietudine. Questo testo molto ricorda per la sua tipicità i dialoghi di Platone, che si contrapponevano agli scritti retorici circolanti all’epoca ad Atene, ed ha il grande pregio di presentare in forma colloquiale ma rigorosa il calcolo dell’incertezza e della ripetibilità delle misure. Analogamente a Sisifo, discepolo di Socrate, Luis viene guidato, dopo un esaustivo elenco di documenti relativi all’incertezza di misura, attraverso le definizioni di scarto tipo, varianza, distribuzione di probabilità, normal probability plot, ecc., che costituiscono le basi teoriche del calcolo. Entrano a questo punto in scena i dati sperimentali sui quali viene effettuato il calcolo con l’indicazione delle relative funzioni del software utilizzato (niente tabelle!). Rispetto ai testi a disposizione degli operatori del settore, questo documento fornisce una guida rapida che suggerisce però diversi livelli di approfondimento privilegiando comunque l’approccio relativo a “come si fanno le cose” rispetto all’approccio “cosa bisogna fare”. Poiché, come recita un proverbio cinese “ L'uomo che ha troppe parole, spesso non ha alcuna certezza”, termino questa breve presentazione esprimendo la convinzione che questo documento contribuirà a sfatare alcuni miti: che l’incertezza di misura sia impossibile da comprendere, che si traduca in una inquietante serie di equazioni da imparare a memoria, che le persone che si occupano di queste tematiche siano umanamente aride e fredde e prive del senso dell’umorismo. Mi auguro pertanto che questa promessa di sradicamento di convinzioni diffuse risulti stimolante per tutte le persone che per ragioni di lavoro o per mera curiosità vengano a trovarsi a contatto con le problematiche di ripetibilità ed incertezza delle misure. Paolo Bianco Direttore SINAL Pag. 6 di 52
  • 7. Michele Rapillo Gli scarti... “tipi”... facili INDICE IL FATTO............................................................................................................................. ............8 IL LAVORO ....................................................................................................................................10 LUIS E I DUBBI SULLA DISTRIBUZIONE DEI DATI SPERIMENTALI ....................................................18 LUIS E LA DISTRIBUZIONE NORMALE ............................................................................................20 LUIS E I DATI ANOMALI ................................................................................................................ .23 LUIS E LO SCARTO TIPO .................................................................................................................24 LUIS E LA VERIFICA DELLA MEDIA ................................................................................................25 LUIS E LA VERIFICA DELLO SCARTO TIPO......................................................................................26 LUIS E IL CALCOLO DELLO SCARTO TIPO VARIABILE CON LA CONCENTRAZIONE .........................27 L’INCERTEZZA DI LUIS .................................................................................................................36 LUIS E L’ APPROCCIO METROLOGICO .....................................................................................................................................38 LUIS E HORWITZ ....................................................................................................................................................................41 LUIS E IL CRITERIO OLISTICO .................................................................................................................................................42 L’ INCERTEZZA DI LUIS VARIABILE CON LA CONCENTRAZIONE ...........................................................................................42 LA DECISIONE FINALE DI LUIS ......................................................................................................51 Pag. 7 di 52
  • 8. Michele Rapillo Gli scarti... “tipi”... facili Il Fatto Il mio amico Luis, un microbiologo sudamericano che dirige il laboratorio di una importante azienda lattiero casearia1, dovendo affrontare il calcolo della ripetibilità e dell’incertezza di misura mi ha chiesto di indicargli qualche riferimento bibliografico che lo aiutasse ad affrontare tali temi in modo rigoroso, ma al tempo stesso pratico. Gli ho consigliato di consultare il sito del SINAL2 che considero il punto di riferimento nazionale più completo sulla tematica. Luis ha seguito il mio consiglio e si è ritrovato davanti un elenco molto ampio; dopo una rapida analisi ha focalizzato l’attenzione su quei documenti che già nel titolo avevano il termine chimica o microbiologia e contemporaneamente anche incertezza o ripetibilità, e quelli che, indipendentemente dalla disciplina (chimica, meccanica, ecc.) trattassero il tema dell’incertezza, ottenendo il sottoinsieme riportato di seguito ed evidenziato in giallo. Sigla Titolo Rev. DT-0002 Guida per la valutazione e la espressione dell'incertezza nelle misurazioni 1 DT-0004 Linee guida per la taratura di strumenti nel settore della compatibilità 0 elettromagnetica e dei campi elettromagnetici ambientali DT-0002/1 Esempi applicativi di valutazione dell'incertezza nelle misurazioni elettriche 1 DT-0002/2 Esempi applicativi di valutazione dell'incertezza nelle misurazioni 0 meccaniche DT-0002/3 Avvertenze per la valutazione dell'incertezza nel campo dell'analisi chimica 0 DT-0002/4 Esempi applicativi di valutazione dell'incertezza nelle misurazioni chimiche 0 DT-0002/5 Esempio applicativo per misurazioni su materiali strutturali 1 3 DT-0002/6 Guida al calcolo della ripetibilità di un metodo di prova ed alla sua verifica 0 nel tempo EA-4/02 Expression of the uncertainty of measurement in calibration 00 EA-4/09 Accreditation for sensory testing laboratories 01 EA-4/10 Accreditation for Laboratories Performing Microbiological Testing 02 EA-4/15 Accreditation for Bodies Performing non-Destructive Testing 00 EA-4/16 EA guidelines on the expression of uncertainty in quantitative testing 00 EA-4/18 Guidance on the Application of EN 45001 and ISO/IEC Guide 25 to 1 Ed Electromagnetic Compatability (EMC) Testing (Già EAL-G27) QUAM:2000.1 EURACHEM-CITAC Guide CG4 - Quantifying Uncertainty in Analytical 2 Ed Measurement (*) SIT Doc-519 Introduzione ai criteri di valutazione della incertezza di misura nelle tarature 5 Presentazione SINAL e requisiti della UNI CEI EN ISO/IEC 17025 (P. Bianco) • ISO/IEC 17025: requisiti tecnici - Incertezza di misura: approccio GUM • ISO/IEC 17025: requisiti tecnici - Incertezza di misura: altri approcci • ISO/IEC 17025: requisiti tecnici - Incertezza di misura: decisioni Incertezza di misura e prove valutative (S. Pepa e M. Scognamiglio) Sito dedicato alla guida EURACHEM-CITAC. www.measurementuncertainty.org E' disponibile la guida in linea, con numerosi esempi di chimica analitica. 1 Francia Latticini S.p.A. 2 Sistema Nazionale di Accreditamento dei Laboratori di Prova – www.sinal.it. 3 Documento emesso durante la revisione del presente lavoro Pag. 8 di 52
  • 9. Michele Rapillo Gli scarti... “tipi”... facili MATERIALE DEI CORSI DI AGGIORNAMENTO 2006 • Incertezza di misura in chimica e qualità dei dati. P. Anichini Materiale dei corsi sull'incertezza di misura nelle prove chimiche tenuti con la collaborazione di UNICHIM: • Introduzione al corso. C. Divo • Esempio microbiologico. N. Bottazzini • Verifiche della qualità dei risultati. C. Divo Interventi al Convegno L'ACCREDITAMENTO DEI LABORATORI PER LA SICUREZZA ALIMENTARE, 25-26 ottobre 2005, organizzato da ISS ORL, SINAL, SIT · Criteri generali per la valutazione dell'incertezza di misura. F. Pennecchi, M. Mosca · Incertezza di misura: dalla GUM alla linea guida EURACHEM-CITAC. A. Menditto , M. Plassa · Esempi pratici per la valutazione dell'incertezza di misura in ambito chimico. P. Anichini, G. Bonacchi · Esempi pratici per la valutazione dell'incertezza di misura in ambito microbiologico. A. Maiello, A. Viti · Valutazione dell'incertezza di misura: esperienza di un laboratorio accreditato per gli OGM. S. De Martin A questo punto Luis, che tra l’altro esegue direttamente, e supervisiona, circa 1000 determinazioni giornaliere, ha iniziato una prima ricognizione su tutti questi documenti, e dopo circa una settimana, completamente demoralizzato, e in forte crisi di identità, mi ha chiamato e mi ha detto testualmente: “i pochi concetti che credevo di avere chiari sull’incertezza e sulla statistica si sono trasformati in una informe massa di dubbi e di perplessità, che posso fare?” Gli ho consigliato di seguire un corso sul tema dell’incertezza allo scopo di rinfrescare i concetti base di statistica e di acquisire un approccio sistematico per poter poi meglio utilizzare anche i documenti proposti dal SINAL. Un mese ed un corso dopo Luis mi ha richiamato, confessandomi che il corso era stato molto utile, gli aveva fornito molte informazioni, gli aveva sciolto molti dubbi, ma principalmente gli aveva dato una certezza, la certezza che l’incertezza era una cosa da iniziati, tanto che alla fine del corso uno dei partecipanti, un chimico, aveva detto: ma alla fine, come si calcolano la ripetibilità e l’incertezza? io questo solo volevo sapere e ancora non lo so! Era chiaro, anche questa volta, come nella maggior parte dei corsi era stato insegnato al più, “cosa bisogna fare” piuttosto che “come si fanno le cose”. Ormai ero incastrato, dovevo dare una mano a Luis. Il mio dubbio fu se partire dai concetti base di statistica descrittiva e di inferenza statistica, oppure dalle necessità pratiche di Luis; la mia certezza era la consapevolezza di dovergli fornire sia le informazioni teoriche indispensabili a “capire il perché” che gli elementi pratici per “sapere come”, miscelandoli e definendone le priorità in relazione alle necessità. Decisi di partire dalle necessità pratiche del mio amico. Pag. 9 di 52
  • 10. Michele Rapillo Gli scarti... “tipi”... facili Il lavoro M4Qual è il tuo problema? L5 Devo validare un metodo interno. In realtà non si tratta di un metodo ideato dal laboratorio: con tutto quello che ho da fare ci mancherebbe che mi mettessi a sviluppare dei metodi di prova! Il metodo, che prevede l’utilizzo di un’apparecchiatura complessa, il FOSSOMATIC MINOR, è stato elaborato da una multinazionale del settore, la FOSS Analytical A/S e non riporta dati di validazione. Il parametro da determinare è il numero di cellule somatiche/ml nel latte vaccino. I limiti operativi del metodo prevedono la determinazione delle cellule somatiche nel campo di misura 100.000 – 2.000.000 cellule/ml. Ai fini della validazione devo determinare, tra l’altro, la ripetibilità e l’incertezza. M Mi puoi spiegare meglio come è fatta e come funziona questa apparecchiatura? L Il Fossomatic Minor, evidenzia il DNA cellulare con un colorante (Propidium iodide), lo fotografa e quindi elabora l’immagine elettronicamente restituendo il valore di cellule somatiche attraverso il collegamento ad un PC. M Quali sono le specifiche tecniche del Fossomatic Minor? In particolare cosa riporta la FOSS in relazione ai parametri che devi determinare? L La FOSS nelle sue specifiche tecniche riporta la ripetibilità espressa in termini di coefficiente di variazione CV a tre livelli e una valutazione dell’accuratezza come rapporto con un metodo di conta diretta al microscopio, come puoi ben vedere. Repeatability**: CV < 7 % at 100.000 cells/ml (** coefficient of variance) CV < 5 % at 300.000 cells/ml CV < 4 % at 500.000 cells/ml Accuracy: < 10 % relative mean diff. from Direct Microscopic Somatic Cell Count (DMSCC) Carry-over: < 1.5% * M Bene, ecco il nostro primo problemino: esprimere il CV secondo parametri che conosciamo meglio e che possiamo determinare: la formula del CV è la seguente s CV = 100 x dove s è lo scarto tipo di ripetibilità e x la media dei risultati di un numero elevato di prove (>30) eseguite con il metodo in esame. 4 M = Michele 5 L = Luis Pag. 10 di 52
  • 11. Michele Rapillo Gli scarti... “tipi”... facili L Mi ricordi cosa è lo scarto tipo? M Lo scarto tipo è la radice quadrata positiva della varianza, - ho risposto in modo per me chiaro, preciso e inequivocabile -. L Cosa è la varianza? M La varianza è una misura della dispersione dei risultati, ed è data dalla somma dei quadrati delle differenze rispetto alla loro media divisa per il numero dei risultati meno uno, che in termini matematici (quando si riferisce ad un campione di dati) si esprime come riportato di seguito. varianza( x1, x2 ,...........x n ) = Mentre se ci riferiamo all’intera popolazione di dati, il termine n-1 viene sostituito da n. L Quelle che mi hai dato sono definizioni, io voglio sapere che cosa è in pratica lo scarto tipo, inoltre nei miei ricordi, non ritrovo lo scarto tipo, che se ho ben capito è probabilmente un altro modo di chiamare la deviazione standard. Tale termine non si trova neanche nelle funzioni statistiche di excel, allora me lo spieghi? M Per quanto riguarda la seconda parte della tua domanda ti dico subito che sono sinonimi, anche se, volendo, si possono trovare giustificazioni semantiche e interpretazioni interessanti del diverso nome dato a due parametri identici. In ogni caso nel nostro lavoro, è bene chiarirlo subito, parleremo sempre di scarto tipo. E veniamo alla prima parte della domanda, e cioè cosa è, o meglio cosa rappresenta in pratica, lo “scarto tipo”. In primo luogo ti devo ricordare che molti fenomeni naturali da quelli biologici a quelli fisici si distribuiscono generalmente secondo una curva detta “curva di Gauss”, e da tale curva partiremo. L Ferma la musica! Anche al corso che ho frequentato hanno iniziato da qui, ma poi sai come è finita. M Abbi fede e ascolta quello che ti dico! Intanto, prima di parlare di Gauss devo darti un’altra definizione, quella di ripetibilità. La norma UNI-CEI-ENV 130056 del 2000, dà la seguente definizione: Ripetibilità Grado di concordanza tra i risultati di successive misurazioni dello stesso (dei risultati di misurando effettuate nelle stesse condizioni di misura. misurazione) Nota 1 queste condizioni sono denominate condizioni di ripetibilità Nota 2 Le condizioni di ripetibilità comprendono: Pag. 11 di 52
  • 12. Michele Rapillo Gli scarti... “tipi”... facili • lo procedimento di misurazione, stesso • lo stesso osservatore, 6 UNI-CEI-ENV 13005 Guida all’espressione dell’incertezza di misura Pag. 12 di 52
  • 13. Michele Rapillo Gli scarti... “tipi”... facili lo stesso strumento di misura utilizzato nelle stesse • condizioni • lo stesso luogo • ripetizione entro un breve periodo di tempo Nota 3 La ripetibilità può essere espressa quantitativamente in termini delle caratteristiche di dispersione dei risultati Il Manuale Unichim 179/17 distingue invece tra ripetibilità stretta e ripetibilità intermedia e riporta: Condizioni di Condizioni nelle quali i risultati mutuamente indipendenti vengono ottenuti ripetibilità con lo stesso metodo su uno stesso materiale, nello stesso laboratorio, dallo stretta: stesso operatore, utilizzando la stessa strumentazione, in un intervallo di tempo breve (senza ritaratura). Nota - Queste condizioni rappresentano la costanza di tutti i fattori riguardanti la realizzazione delle prove. La variazione di una o più di tali condizioni, tenendo però fisso il laboratorio, il materiale da esaminare e il metodo, porta a considerare una ripetibilità intermedia8. Se intervengono diversi laboratori con lo stesso metodo nell’esame dello stesso campione si determinano le condizioni per valutare la riproducibilità. Tornando alla distribuzione normale, lo stesso manuale 179/1 dell’UNICHIM, riporta che nella maggior parte dei casi i risultati di analisi chimico fisiche condotte in condizioni di ripetibilità stretta si distribuiscono secondo la classica curva a campana o di Gauss. Nel nostro caso, la variabile in gioco, il conteggio delle cellule somatiche, è una tipica variabile discreta che per sua natura non si distribuisce secondo la curva di Gauss, ma secondo quella di Poisson. Tuttavia ai conteggi elevati, come quelli relativi alle cellule somatiche, la distribuzione di Gauss ed i suoi parametri rappresentano un’ottima approssimazione di quella di Poisson. L Mi ricordi le caratteristiche e le proprietà delle gaussiana? M Si supponga di eseguire, in condizioni di ripetibilità stretta, un gran numero di misurazioni di un certo misurando, e di riportare in un grafico (istogramma) le frequenze relative9 dei valori ottenuti (xi) con le prime 20, 40, ...1000 misure. All'aumentare del numero di misure, i valori tendono ad accentrarsi attorno alla loro media e l'istogramma assume una forma a campana sempre più regolare, che può essere approssimata con una funzione reale nota come funzione di Gauss o funzione normale. 7 Manuale Unichim 179/1 Linee guida per la validazione di metodi analitici nei laboratori chimici - valutazione della precisione (ripetibilità stretta) di un metodo analitico eseguito in un unico laboratorio da un solo operatore su di un unico strumento in un breve intervallo di tempo. 8 La definizione e i diversi casi sono riportati nella ISO 5725-3 9 Le frequenze relative sono date dal rapporto tra le frequenze assolute ed il numero delle osservazioni. Pag. 13 di 52
  • 14. Michele Rapillo Gli scarti... “tipi”... facili La funzione di Gauss Distribuzione di Gauss dove: f(x) è la densità di probabilità o frequenza con cui il valore x può essere riscontrato è lo scarto tipo della totalità delle misure; μ è la media della totalità delle misure; e base dei logaritmi naturali ( e = 2.71828...). μ = 3.14159... La variabilità aumenta all’aumentare di μ = μ1 = μ2 = 1 = 2 Al variare dello scarto tipo la curva modifica la Al variare della media aritmetica (a parità di scarto tipo) sua forma la curva trasla sull’asse delle x Le caratteristiche della distribuzione normale 1. è simmetrica rispetto al valore medio 2. il valore di x = μ oltre che alla media aritmetica coincide con la moda e la mediana 3. è asintotica all'asse delle x da entrambi i lati 4. è crescente per x<μ e decrescente per x>μ 5. possiede due punti di flesso per x = μ± 6. l’area sotto la curva è = 1 (rappresentando tale area la probabilità che si ottenga un qualsiasi valore di x) L OK, mi hai ricordato una serie di cose che ho studiato durante il mio corso di studi, ma avendole abbandonate da tempo, quasi non ricordavo più. In effetti avevo proprio bisogno di questi richiami. Però ….. ora che ci penso, il fatto che l’area sotto la curva di Gauss sia uguale ad 1 mi serve a poco, in quanto le mie necessità sono in genere altre; ad esempio, se io voglio conoscere la probabilità che un dato valore sia compreso in un intervallo definito, delimitato ad esempio da due valori x1 e x2, come devo fare? Pag. 14 di 52
  • 15. Michele Rapillo Gli scarti... “tipi”... facili M Ovviamente tale probabilità è data dall’area della curva compresa tra x1 ed x2 e quindi basta semplicemente calcolare tale area, calcolando l’integrale della funzione di Gauss tra questi due valori. Il vero problema è che questa funzione non è facilmente integrabile. L E i computer a che servono? M In effetti puoi usare le funzioni di excel, e ti dirò dopo come, ma intanto è utile che tu acquisisca le ultime informazioni sulla curva di Gauss ed in particolare su come si opera per il calcolo del suo integrale. INTERVALLI DI PROBABILITÀ riferimento 10 Per ovviare alle difficoltà di calcolo dell’integrale della funzione di Gauss, si può trasformare una generica funzione gaussiana f(x) con media μ e varianza 2, in una funzione gaussiana standard con media 0 e varianza 1. Ponendo: 1 (z)2 x μ 1 2 Z= si ottiene f (z) = e 2 il simbolo Z viene generalmente in molti laboratori sostituito da kp Per la funzione standardizzata sono state riferimento11 predisposte delle tabelle in funzione di Z. Le tabelle se pur ancora largamente usate stanno sempre più cedendo il campo ai PC 10 Sito SINAL Paolo Bianco ISO/IEC 17025: requisiti tecnici 11 www.biostatistica.unich.it/.../ Pag. 15 di 52
  • 16. Michele Rapillo Gli scarti... “tipi”... facili L Fermo! Finora abbiamo parlato di popolazioni, quindi di un numero infinito di dati, ma io ho a che fare invece sempre con un numero limitato di dati, come la mettiamo? Come ci può aiutare Gauss? M Questo stesso problema se lo è posto circa un secolo fa un tuo collega (nel senso che, come te in passato, anche lui lavorava in una fabbrica di birra) di nome W.S. Gosset, più noto sotto lo pseudonimo di “Student”. Proviamo a definire meglio il rapporto che lega i piccoli campioni e le popolazioni: supponiamo di conoscere il valore medio μ di una popolazione, se operiamo con un certo numero m di piccoli campioni (costituito ognuno da n elementi o unità statistiche), rappresentativi della popolazione, ci possiamo aspettare che la media di ogni campione abbia una certa distribuzione centrata intorno a μ e ci possiamo anche aspettare che la dispersione di tale distribuzione intorno alla media della popolazione dipenda dalla dimensione del campione (più grande il campione, migliore la stima di μ). In termini matematici si può dimostrare che lo scarto tipo delle medie che chiameremo s è uguale a s= n con n uguale al numero di elementi del campione. Questo riflette il fatto che la media tende ad essere meno variabile, ed in effetti se ci riferiamo alle medie invece che alle osservazioni singole l’espressione x μ x μ Z= diventa Z= . / n Le formule precedenti presuppongono che sia nota, cosa che per quanto riguarda i metodi di prova, non sempre è vera, come giustamente hai puntualizzato. Per ovviare a tale problema, x μ Student propose di sostituire alla Z della relazione precedente, Z= , il parametro / n x μ t= dove x e s rappresentano rispettivamente la media e lo scarto tipo del campione in s/ n esame, che sostituiti nella funzione di Gauss, restituiscono le stesse informazioni, ma su un campione limitato della popolazione. La distribuzione di Student è ancora simmetrica rispetto a μ ed è funzione dei gradi di libertà. E si può affermare che la distribuzione di =1 Student ha fianchi più larghi, code più alte e 2 varianza maggiore: in altri termini, facendo un 4 paragone con le “curve femminili” è, come si dice a Roma, un po’ più tracagnotta della distribuzione normale. All’aumentare dei gradi di libertà la distribuzione di Student approssima la gaussiana. L Fermati, non ti lascio proseguire se non mi dici cosa sono i gradi di libertà. Pag. 16 di 52
  • 17. Michele Rapillo Gli scarti... “tipi”... facili M In generale si può dire che i gradi di libertà sono dati dal numero delle variabili meno il numero di vincoli. L Mi sembra di parlare con un secondino, gradi di libertà, vincoli; tra poco mi parlerai di sbarre e sole a scacchi, fammi un esempio. M Ti faccio un esempio tratto dal Perry’s12: quattro numeri in una tabella che deve avere la somma delle righe e delle colonne uguali a zero ha solo 1 grado di libertà (4 numeri e tre vincoli, in quanto il quarto è ridondante). Nelle situazioni più semplici (quasi sempre nel nostro caso) i gradi di libertà, generalmente indicati con , sono dati dal numero delle osservazioni meno uno. L Perfetto! Ora sì. M Tornando al discorso relativo ai piccoli campioni, invece di calcolare =1 la media di ogni gruppo, possiamo 2 3 calcolare lo scarto tipo di ognuno di 4 essi: ci dobbiamo aspettare che tali stime di abbiano una qualche distribuzione caratteristica. In particolare viene definita una distribuzione di (s2/ 2)* con = gradi di libertà = n-1. Tale distribuzione è chiamata distribuzione chi-quadro ( 2) la cui forma dipende dalla numerosità del campione. Nel grafico sono mostrate le varie distribuzioni al variare di v. L E a che serve? M Serve a verificare la bontà dell’accordo tra dati sperimentali e dati teorici Il 2 può servire per valutare se la varianza 2 di una popolazione, dalla quale sia stato estratto un campione con varianza s2, sia uguale o diversa da un valore predeterminato 02 di una popolazione. L Ma quante distribuzioni ci sono? M Calmati, ancora una e abbiamo finito! Sempre proseguendo con lo stesso tema dei campioni con distribuzione normale, come rappresentativi di una popolazione, dobbiamo fare un’ultima considerazione. Invece di considerare la distribuzione delle singole varianze s2 dei campioni, possiamo considerare un altro tipo di distribuzione, che ancora coinvolge la stima della varianza della popolazione 2. Riferendoci ai nostri m campioni, possiamo calcolare di ognuno la s2i e quindi calcolare il rapporto tra quelli consecutivi (s21/ s22, s23/ s2 4, s2 5/ s2 6… ecc. 12 Perry’s Chemical Engineers’ Handbook McGraw Hill 1997 Pag. 17 di 52
  • 18. Michele Rapillo Gli scarti... “tipi”... facili Ancora ci dobbiamo aspettare che questi rapporti abbiano una certa distribuzione di frequenza. Anche questa distribuzione dipende dalle dimensioni del campione. È da notare che i campioni possono non essere della stessa numerosità, in questo caso la forma della distribuzione dipende dalla numerosità dei campioni n1, n2, ... Tale distribuzione è definita come distribuzione di Fischer F( 1, 2). (n1, n2) = (20, 2) (20, 4) (20, 8) (20, 16) Distribuzione F Più precisamente, se due variabili sono indipendenti e distribuite come 2, allora il rapporto fra le due variabili, ciascuna divisa per il proprio numero di gradi di libertà, è distribuito secondo una distribuzione simile a quella in figura. Questa distribuzione è utile per determinare se due serie di dati, provenienti da una distribuzione normale, hanno la stessa dispersione (stessa varianza). Ovviamente anche per questa distribuzione esistono sia delle tabelle che delle funzioni di excel. M In sintesi, se non l’hai ancora capito, testone, queste distribuzioni servono a determinare quale differenza ci si può aspettare tra varie quantità dovuta ad effetti casuali, o in altri termini per determinare se gruppi di dati differiscono da altri gruppi o da valori/valore ipotizzati. Ad esempio, se fissata una certa probabilità, la varianza del campione in esame può essere assunta come una stima dello varianza della popolazione (o se vuoi leggi scarti tipo invece di varianze). Ti riporto il riepilogo delle distribuzioni di cui abbiamo parlato Distribuzione Simbolo Parametri Variabile Singole osservazioni di una x μ Gauss z popolazione* Z= x μ z Medie Z= / n x μ Student t Medie con incognita* t= s/ n 2 2 Chi -quadro Varianze* = s2 / 2 Rapporto delle varianze di due F( 1, 2) = s 2 1 /s 2 2 Fisher F campioni indipendenti* * provenienti da una distribuzione normale Riferimento12 M Ti ricordo che alla base di tutti questi discorsi ci sono due ipotesi: la prima è che stiamo operando in condizioni di ripetibilità stretta (in altri termini le variazioni sono dovute unicamente al caso), la seconda è che la distribuzione dei dati è normale. Pag. 18 di 52
  • 19. Michele Rapillo Gli scarti... “tipi”... facili L Ferma la musica! Adesso si va a prendere il caffé, anzi, mentre andiamo ti voglio mostrare cosa ho trovato su una bancarella a Flohmarkt l’ultima volta che sono andato a Berlino. M Ebbene? Cosa ha di strano questa banconota da meritare tanto interesse? A me sembra una normalissima banconota non dissimile da tutte le altre, di qualunque paese del mondo. L E qui casca l’asino, perché se guardi l’altra faccia (forse) puoi capire il perché del mio interessamento! M Grazie per il complimento e fammi guardare meglio la banconota. …. Ah! Ora capisco è una banconota dedicata a Gauss. Unica formula matematica riportata su una banconota: i 10 marchi tedeschi emessi nel 1991. Luis e i dubbi sulla distribuzione dei dati sperimentali L Ora che abbiamo preso il caffé e ci siamo ristorati, mi viene in mente una cosa che non mi hai ancora detto. Come faccio a sapere se i dati di un campione sono distribuiti secondo una gaussiana? M Mi aspettavo questa domanda e la risposta è semplice: il metodo migliore per piccoli e medi campioni è ritenuto il test di Shapiro-Wilk, che potrai trovare ben descritto nel Manuale 179/1 dell’Unichim7 . Io ti parlerò invece del “normal probability plot”, un metodo grafico e “per puro sadismo” del test di Kolmogorov-Smirnov, applicabili praticamente a tutte le situazioni. La logica del probability plot è molto semplice: si tratta di porre in un sistema di assi cartesiani i quantili sperimentali normalizzati in relazione ai quantili teorici di una distribuzione gaussiana e disegnare la curva di correlazione. Se i dati di partenza sono distribuiti normalmente, la curva Pag. 19 di 52
  • 20. Michele Rapillo Gli scarti... “tipi”... facili interpolatrice si avvicinerà ad una retta. Se i dati non si posizionano approssimativamente su una retta dobbiamo dedurre che la distribuzione non è normale. Esempio: campioni da una distribuzione normale 13 normal probability plot Per quanto riguarda il test di Kolmogorov-Smirnov si verifica se la differenza massima tra le frequenze cumulate attese e sperimentali è inferiore ad un valore critico, per poter concludere che la distribuzione è normale. L Chiaro e semplice, ottimo, mi piace, anche se spero che mi dirai cosa sono i quantili e le frequenze cumulate! Ma se i dati, normali o no, presentano dei dati anomali, come me ne accorgo, come mi devo comportare? M Intanto chiariamo che un dato anomalo, o outlier, è un dato che giace fuori dal modello di distribuzione, un punto che non è ben interpolato dal modello stimato, ed è indice di qualche sorta di problema quale un risultato estremo, un errore di misura, un errore di trascrizione, ecc.. Il Normal Probability plot ci può ancora aiutare nell’individuare i dati anomali, in quanto se la distribuzione non è ben interpolata con una retta, ma si notano alcuni punti non allineati, molto probabilmente quei punti rappresentano dei dati anomali; sempre da tale diagramma è possibile capire se vi sono dati anomali anche se tutti i dati sono ben allineati: è questo il caso di dati molto lontani dalla maggior parte di dati accentrati in prossimità della media. Per quanto riguarda il cosa fare dei dati anomali, in genere si tende ad eliminarli o a correggerli in relazione alle cause che li hanno determinati, ma non sono rari i casi in cui si accettano tal quali: in ogni caso ogni scelta deve essere ben argomentata e giustificata. Vi sono sistemi specifici per l’individuazione dei dati anomali: uno si basa sull’uso di particolari quantili, i ”quartili”, con tale metodo sono individuati come outliers i dati minori del primo quartile meno 1,5 volte il range interquartile o i dati maggiori del terzo quartile più 1,5 volte il range interquartile. Comunque il test più semplice ed al tempo stesso tra i più efficaci per l’individuazione dei dati anomali (o outlier) è il test di Huber. Come al solito su molti testi puoi trovare altri criteri sia della verifica di normalità (es. test di Shapiro Wilk) che della presenza di dati anomali (es. test di Dixon, test di Grubbs etc.)7 M Per tua comodità e per facilitarti il lavoro ti mostrerò dopo come verificare la normalità dei dati e come individuare i dati anomali con i criteri che ti ho appena descritto, utilizzando diversi semplici comandi di Excel. 13 Guido Masarotto - Facoltà di scienze statistiche Università di Padova lezioni di inferenza statistica a.a. 2005-2006 Pag. 20 di 52
  • 21. Michele Rapillo Gli scarti... “tipi”... facili Luis e la distribuzione normale L Ti ringrazio in anticipo per quanto mi metterai a disposizione, ma ora basta con le chiacchiere, anche se molto interessanti, e fammi capire con qualche esempio pratico. M Ti propongo di utilizzare per gli esempi dei dati reali, così contemporaneamente potremo raggiungere il primo dei nostri obiettivi, che è il calcolo dello scarto tipo che ti interessa. L OK, Partiamo dai dati. M In primo luogo i dati da analizzare devono essere ottenuti in condizione di ripetibilità stretta. Quindi facciamo così: prendiamo un latte da analizzare ed invece di una sola determinazione chiediamo a Valentina di effettuare dieci repliche una dopo l’altra, senza modificare nessuna delle condizioni operative. V14E ti pareva, loro fanno gli scienziati e Valentina produce i dati, o meglio Valentina li ha già prodotti. Mentre voi elaboravate le vostre teorie io ho effettuato 10 analisi in condizione di ripetibilità stretta su un latte con circa 150.000 cellule/ml: eccoli, tutti per voi, espressi in migliaia di cellule/ml: 143 131 120 135 149 128 133 131 135 136 L Sei un tesoro, adesso questi dati me li lavoro io. Innanzi tutto voglio verificare se sono distribuiti normalmente, usando il normal probability plot. A proposito, ma se non mi dici cosa sono i quantili non sono in grado di disegnarlo, e quindi datti una mossa! M Ti riporto la definizione più semplice che ho letto: “L'idea alla base di un quantile-p (dove p è compreso tra 0 e 1) è di cercare un numero che sia più grande del 100 x p% dei dati osservati e più piccolo del restante 100 x (1 - p)%. Ad esempio, un quantile 0,1 deve essere un valore che lascia a sinistra il 10% delle osservazioni ed a destra il restante 90%. I quantili con p uguale a 0,25 - 0,50 e 0,75 vengono chiamati rispettivamente il primo, il secondo e il terzo quartile. Dividono la popolazione in quattro parti uguali. Si osservi che il 2° quartile coincide con la mediana. I quantili con p = 0,01;… ; 0,99 si chiamano percentili.”15 Capirai meglio i quantili mentre costruiamo il normal probability plot: Dato un insieme di n valori sperimentali, 1. si ordinano i dati in senso crescente 2. si numerano i dati ordinati da 1 a n 3. si calcola lo scarto tipo e la media dei valori sperimentali, 4. si calcola per ogni valore sperimentale xi il corrispondente valore standardizzato della distribuzione normale Zi x μ Zi = i 14 V = Valentina 15 Masarotto Facoltà di scienze statistiche Università di Padova lezioni statistica descrittiva a.a 2001-2002 Pag. 20 di 52
  • 22. Michele Rapillo Gli scarti... “tipi”... facili 5. si calcola il rango di ogni dato ordinato in senso crescente (rango: brutta traduzione italiana dell'inglese rank, che significa posizione in graduatoria/classifica/ordine crescente) 6. si calcolano le frequenze cumulate relative per ogni rango da 1 a n (la Frequenza Cumulata Relativa è uguale a (Rango(i) - 0,5)/n ) 7. si calcolano i valori della Z teorica relativa (quantili) ad ognuna delle frequenze cumulate relative, 8. si riportano in un diagramma cartesiano i valori delle Zi (quantili) teoriche sull’asse delle x 9. si riportano i corrispondenti valori delle Zi sperimentali sull’asse delle y 10. si costruisce la retta che interpola i dati 11. si valuta la bontà della correlazione lineare. Ovviamente tutto ciò può essere fatto con excel in particolare per ricavare i quantili e per costruire la retta interpolatrice in quanto excel restituisce oltre all’equazione della retta anche il coefficiente di correlazione r2 che è l’indice della bontà della correlazione (più r2 si avvicina a 1, migliore è la correlazione lineare). L Scusa: perché hai usato per il calcolo della frequenza cumulata (Rango(i) - 0,5)/n invece di Rango(i) /n? M Perché se avessimo usato Rango(i) /n, la frequenza cumulata massima sarebbe stata uguale ad 1 e quindi la relativa Z sarebbe stata uguale a (riferimento)13. L Perfetto guarda cosa è venuto fuori dalle tue elucubrazioni, considera che ho seguito passo-passo ogni tua parola. A B C D E F quantili rango frequenze quantili sperimentali dati sperimentali cumulate quantili ordinati z (kp) relative teorici 1 120 -1,78 1 0,05 -1,64 2 128 -0,77 2 0,15 -1,04 3 131 -0,39 3 0,25 -0,67 4 131 -0,39 3 0,25 -0,67 5 133 -0,14 5 0,45 -0,13 135 6 quantili teorici y = 0,9768x + 0,0536 6 0,11 0,55 0,13 2 R = 0,948 7 135 0,11 6 0,55 0,13 8 136 0,24 8 0,75 0,67 FORMULE EXCEL UTILIZZATE 143 9 Z= ((Bi-media(Bi))/(dev.st(Bi)) 9 1,13 0,85 1,04 149 10 Freq. Cum. Rel = [Di-0,5]/(totale dati) 10 1,88 0,95 1,64 Quant. Teor = INV.NORM.ST(Ei) Media 134,1 Rango = Rango ( ) Scarto tipo = dev.st( ) Scarto tipo 7,91 In prima istanza i dati mi sembrano abbastanza ben interpolati da una retta, per cui deduco, per ora, che la distribuzione è normale. Tu che pensi? M Ho verificato l’ipotesi di normalità dei dati con un software ad hoc, il software dell’UNICHIM 16 che utilizza il test di Shapiro-Wilk, ebbene, il test conferma la distribuzione normale. Ti ricordo comunque che il test di Shapiro Wilk può essere utilizzato per un campione fino a 40 dati. 16 Software applicativo per l’elaborazione dei risultati analitici Milano 2006 Pag. 21 di 52
  • 23. Michele Rapillo Gli scarti... “tipi”... facili La stessa cosa ci dovremmo aspettare dal test di Kolmogorov Smirnov (che può essere utilizzato per campioni che hanno anche più di 40 dati). Per quanto riguarda tale test si opera come di seguito: si calcolano le frequenze cumulate sperimentali dei dati da analizzare (ipotizzando una distribuzione normale), si determinano quindi le frequenze cumulate relative teoriche per la distribuzione in questione e quindi se ne fa la differenza (punto per punto); se il valore della differenza massima è inferiore ad un valore critico tabulato, si conclude che la distribuzione è normale. Eccoti i risultati serviti caldi caldi. A B C D E F Media 134,10 frequenza frequenza dati cumulata cumulata Varianza 62,54 indice IzI sperimentale rango teorica I I Scarto tipo 7,91 ordinati (FCR) (FCT) Differenza Critica 95% 0,409 1 120 1,78 0,037 1 0,1 0,063 Massima differenza Max 0,205 2 128 0,77 0,220 2 0,2 0,020 3 131 0,39 0,348 3 0,3 0,048 Essendo la differenza massima = 0,2 < della differenza 4 131 0,39 0,348 3 0,3 0,048 critica dc = 0,409 (ricavata dalla tabella) si deduce che la 5 133 0,14 0,445 5 0,5 0,055 distribuzione è normale 6 135 0,11 0,545 6 0,6 0,055 7 135 0,11 0,545 6 0,6 0,055 frequenza teorica frequenza s perimentale 1,2 8 136 0,24 0,595 8 0,8 0,205 1 9 143 1,13 0,870 9 0,9 0,030 0,8 10 149 1,88 0,970 10 1 0,030 0,6 FORMULE EXCEL UTILIZZATE ) 0,4 Z= [(Bi-media(Bi) /dev.st(Bi) FCR= Distrib.Norm(Bi;media;dev.st;VERO) 0,2 FCT= rango/(n. dati) 0 = ass(FCT-FCR) 0 2 4 6 8 10 12 Scarto tipo = Dev.st. L Ho la sensazione che tu manipoli i dati a tuo piacimento secondo le tue necessità: mi dai l’idea degli analisti politici, che riescono sempre ad ottenere le proiezioni di voto utili ai loro “mandanti”. Perché questa volta nel calcolo delle frequenze cumulate teoriche non hai sottratto il valore 0,5 come hai fatto in precedenza? M Mi lusinghi, paragonandomi con gli esperti statistici dei nostri litigiosi esponenti politici, ma non ho fatto alcuna manipolazione. Non ho sottratto lo 0,5 in quanto in questo caso non era necessario. L Da dove hai tirato fuori il valore critico? M non è stato semplice, ma a seguito di una lunga ricerca su Internet, mi sono imbattuto in un sito che riportava la tabella seguente. Pag. 22 di 52
  • 24. Michele Rapillo Gli scarti... “tipi”... facili Tabella valori critici di Kolmogorov Smirnov p=95% n dc n dc n dc n dc n dc 1 0,975 21 0,287 41 0,208 61 0,171 81 0,149 2 0,842 22 0,281 42 0,205 62 0,170 82 0,148 0,450 3 0,708 23 0,275 43 0,203 63 0,168 83 0,147 0,400 4 0,624 24 0,269 44 0,201 64 0,167 84 0,146 0,350 0,300 5 0,563 25 0,264 45 0,198 65 0,166 85 0,145 0,250 0,200 6 0,519 26 0,259 46 0,196 66 0,164 86 0,144 0,150 7 0,483 27 0,254 47 0,194 67 0,163 87 0,144 0,100 0,050 8 0,454 28 0,250 48 0,192 68 0,162 88 0,143 0,000 9 0,430 29 0,246 49 0,190 69 0,161 89 0,142 0 10 20 30 40 50 60 70 80 90 100 110 -0,487 y = 1,2649x 10 0,409 30 0,242 50 0,188 70 0,160 90 0,141 Serie1 Potenza (Serie1) R2 = 1 11 0,391 31 0,238 51 0,187 71 0,159 91 0,140 12 0,375 32 0,234 52 0,185 72 0,158 92 0,140 13 0,361 33 0,231 53 0,183 73 0,156 93 0,139 14 0,349 34 0,227 54 0,181 74 0,155 94 0,138 Per i dati da 10 a 100 ho anche calcolato 15 0,338 35 0,224 55 0,180 75 0,154 95 0,137 per te la relazione che lega il numero di 16 0,327 36 0,221 56 0,178 76 0,153 96 0,137 dati al valore critico; l'equazione è 17 0,318 37 0,218 57 0,177 77 0,152 97 0,136 18 0,309 38 0,215 58 0,175 78 0,151 98 0,135 dn= 1,2649*n(-0,487) 19 0,301 39 0,213 59 0,174 79 0,151 99 0,135 20 0,294 40 0,210 60 0,172 80 0,150 100 0,134 che per n > 100 diventa: Fonte 17 dn =1,358*n(-0,5) Luis e i dati anomali L Va bene, mi hai convinto. Adesso dobbiamo vedere se ci sono dei dati anomali. Da una prima occhiata al normal probability plot credo che potrebbero essere anomali il primo e l’ultimo dato in quanto piuttosto lontani dagli altri dati, ma dimmi come è possibile in modo più rigoroso individuare gli outliers? M Per individuare eventuali dati anomali possiamo utilizzare il test di Huber, che passo subito a descriverti: Si ordinano i dati dati ordinati 120, 128, 131, 131, 133, 135,135, 136, 143, 149 Si calcola la mediana dei dati mediana = 134 Si calcola la differenza tra ogni dato e la mediana (Di) Di = 14, 6, 3, 3, 1, 1, 1, 2, 9, 15 Si calcola la mediana delle differenze (Dm) Dm = 3 Si calcola il prodotto Dm x 4,5 Dm x 4,5 = 3x4,5 = 13,5 I valori per cui Di > Dm x 4,5 sono anomali Valori anomali 120, 149 Il procedimento può essere velocizzato ed automatizzato utilizzando semplici formule excel, come riportato di seguito. I dati ordinati sono ottenuti selezionando la colonna dei dati e quindi cliccando su “DATI” e successivamente scegliendo l’opzione “ORDINA”, le mediane sono calcolate con la formula MEDIANA(….) i residui sono calcolati con la formula = Ass (B(i)-D(i)), i dati anomali sono evidenziati con la formula = SE(Ci-Di>0;Ci;"") 17 http://everything2.net/index.pl?node_id=1540620 Pag. 23 di 52
  • 25. Michele Rapillo Gli scarti... “tipi”... facili A B C D E 1 dati dati ordinati residui Test Dm x 4,5 dati anomali 2 143 120 14 13,5 120 3 131 128 6 13,5 4 120 131 3 13,5 5 135 131 3 13,5 6 149 133 1 13,5 7 128 135 1 13,5 8 133 135 1 13,5 9 131 136 2 13,5 10 135 143 9 13,5 11 136 149 15 13,5 149 12 134 3 13 mediana Di Dm Inoltre ho fatto una verifica con il software16 che ho utilizzato prima e ho avuto la conferma di questi dati anomali. L Adesso, mi è tutto chiaro e devo riconoscere che finora hai mantenuto la parola, in quanto non hai mai fatto ricorso alle tabelle ma solo alle funzioni di excel, e quando sei stato costretto ad utilizzare la tabella di Kolmogorov-Smirnov, sei riuscito a trasformarla in una funzione. Luis e lo scarto tipo Se ho ben capito quindi, a questo punto possiamo calcolare lo scarto tipo di ripetibilità con i dati di partenza! M E no, i dati di partenza non vanno bene, in quanto, avendo individuato alcuni dati anomali, dobbiamo decidere se tenerli o se eliminarli. Io, considerato che i dati sono molto vicini al limite di accettabilità li terrei, anzi, ti propongo di calcolare lo scarto tipo, sia con tutti i dati senza quindi eliminare gli outliers, e quindi di calcolare lo scarto tipo eliminandoli. Il calcolo dello scarto tipo utilizzando tutti i dati è banale, basta utilizzare la formula di excel =dev.st(143;131;120;135;149;128;133;131;135;136) che dà come risultato sr=7,91 L Allora nell’altro caso basta utilizzare la stessa formula, dopo aver eliminato gli outliers! M In genere si, ma è sempre opportuno verificare, se in assenza di tali dati la distribuzione è ancora normale. Nel nostro caso lo è, come si può facilmente arguire dalla tabella precedente, dove, essendo outliers i due dati estremi, i valori di Di e Dm non cambiano. Eliminando i due dati, si ottiene una sr=4,50. Considerato che se i dati eliminati fossero stati appena diversi es. 121 al posto di 120 e 147 al posto di 149, gli stessi dati non sarebbero risultati anomali. Alla luce di tali considerazioni, io accetterei i dati anomali nel calcolo dello scarto tipo, anche in virtù del fatto che i dati considerati sono delle misure affette da una incertezza ancorché incognita. Una conferma della accettabilità dei dati anomali è data dal fatto che la funzione della distribuzione cumulata assume per il dato 120 il valore di 0,037 e per il dato 149 il valore 0,97; in altri termini i due dati sono rispettivamente in zone della curva di Gauss > dell’ 1% e < 99%, ambiti nei quali gli outliers possono essere accettati. Pag. 24 di 52
  • 26. Michele Rapillo Gli scarti... “tipi”... facili Luis e la verifica della media L A questo punto mi chiedo: ma la media calcolata attraverso il nostro campione di 10 prove ripetute in condizione di ripetibilità stretta, è una stima credibile della media di una popolazione con le stesse caratteristiche? M La risposta la dobbiamo cercare o dandoci un riferimento opportuno, che al momento non può che essere la specifica tecnica della FOSS, oppure ricorrendo a qualche considerazione statistica. M Avendo appurato che i dati in nostro possesso hanno distribuzione normale, assumendo come lo scarto tipo ricavato per interpolazione dai dati della specifica tecnica della FOSS, chiamiamo la nostra media calcolata x , il problema che ci poniamo è con quanta precisione x può stimare μ, o in altri termini quale è il range dei valori che include, con una specificata probabilità, il valore vero μ. Dalla relazione + Z = x μ si ottiene con facili trasformazioni μ=x+Z μ= x +Z x ovvero μ= x±Z , n ponendo x= n Quindi, scegliendo un determinato livello di probabilità o di confidenza che determina il valore di Z, si ottiene : x Z <μ< x+Z n n Nel nostro caso avendo ottenuto da 10 misure il valore medio x = 134,1 e lo scarto tipo di ripetibilità s = 7,91 , utilizzando per il valore 8,57 (valore ricavato per interpolazione dai dati della FOSS), quale è l’intervallo nel quale ci dobbiamo aspettare di trovare la media vera μ della popolazione con una probabilità del 95%? In altri termini, essendo la distribuzione simmetrica rispetto a μ, qual è l’intervallo di confidenza tale per cui il solo il 2,5% dei valori è minore del limite inferiore di tale intervallo e il 2,5% dei valori è maggiore del limite massimo di tale intervallo? La soluzione del problema è banale, in quanto dalla formula di excel = INV.NORM.ST(0,975) si ottiene 1,96 (analogamente INV.NORM.ST(0,025), dà come risultato - 1,96) che sostituiti nella precedente dà 1,96 8,57 1,96 8,57 134,1 < μ < 134,1 + 10 10 128,8 < μ < 139,4 In realtà è anche possibile calcolare direttamente l’intervallo di confidenza; in questo caso la sintassi è: =CONFIDENZA(alfa;dev_standard;dimens), con alfa = nel nostro caso = 0,05 si ottiene il valore di 5,31, che aggiunto e sottratto a 134,1, restituisce gli stessi risultati calcolati precedentemente (128,8 e 139,4). Pag. 25 di 52
  • 27. Michele Rapillo Gli scarti... “tipi”... facili L Il tuo esempio non mi convince del tutto, in quanto nel suo sviluppo non hai mai menzionato il birraio (Student), pur operando su un campione di solo dieci dati e non su una popolazione infinita. M Non l’ho chiamato in causa in quanto non serviva, dato che abbiamo assunto come scarto tipo il valore 8,57 derivandolo dai dati della FOSS, e assumendolo come proveniente da una popolazione infinita, cosa che ci ha consentito di utilizzare la funzione di Gauss e le formule ad essa relative. Se supponiamo, invece sempre nello stesso esempio, di non conoscere in quanto non utilizziamo i dati della FOSS, allora dobbiamo far ricorso allo scarto tipo di ripetibilità s calcolato dal laboratorio dai risultati delle 10 ripetizioni e alla distribuzione di Student. In questo caso il limite di confidenza sarà espresso da s s x t <μ< x+t n n La soluzione del problema è praticamente uguale alla precedente, con l’unica differenza di dover calcolare la t e di utilizzare la formula di excel =INV.T(0,05; 9) = 2,26 (la formula si riferisce ad una distribuzione di Student a due code) che sostituito nella precedente dà: 2,26 7,91 2,26 7,91 134,1 < μ < 134,1 + 10 10 128,4 < μ < 139,8 Da cui, come vedi, risulta un intervallo leggermente maggiore. In excel 2003 non è disponibile la formula per il calcolo diretto dell’intervallo di confidenza. Luis e la verifica dello scarto tipo L Scusa, ma se invece voglio sapere se lo scarto tipo da me calcolato è una stima credibile dello scarto tipo vero (nel caso questo sia riportato ad esempio in un metodo di prova), cosa faccio? M È questo il caso in cui ricorriamo alla distribuzione del 2. Supponiamo nel nostro caso di accettare come vero il valore di 8,57 della Foss. Dalla relazione 2(p, ) = s2/ 2 = (n-1)* s2/ 2, si ricava l’intervallo in cui deve essere compreso lo scarto tipo s 2 2 2 (n 1) s 2 2 / 2; =n 1 s2 (1 / 2); =n 1 / 2; =n 1 2 (1 / 2); =n 1 ovvero 2 n 1 n 1 2 In questa relazione sono noti tutti i termini tranne , che possiamo calcolare da tabelle ad hoc, o utilizzando le formule di excel. Noi utilizziamo, ovviamente, excel. Scegliendo un livello di probabilità p = 95% e ricorrendo alla solita convenzione di indicare p = 1- , p1 = /2 e p2 =1- /2, si calcolano i due valori di 2, per p1 e p2 con le formule INV.CHI(0,025;9) e INV.CHI(0,975;9), che danno rispettivamente per il 2 i valori 2,70 e 19,02. Con semplici trasformazioni si ottiene che deve risultare s/ > [ 2( /2; 9)/ ] 1/2 e s/ < [ 2(1- /2; 1/2 9)/ ] . E sostituendo i valori numerici si ha che: Pag. 26 di 52
  • 28. Michele Rapillo Gli scarti... “tipi”... facili 2 s 2 7,91 (n 1) 2 =9 = 7,67 8,57 2 2 Pertanto, essendo tale valore < 19,02 ( 1 / 2; =n 1 ) e > 2,70 ( / 2; =n 1 ), il valore dello scarto tipo calcolato è compatibile con quello della FOSS. L Vedo che hai mantenuto la tua parola, adesso però andiamo a prendere un bel caffé. Luis e il calcolo dello scarto tipo variabile con la concentrazione M Buono quel caffé! Prima di andare avanti, facciamo il punto della situazione. Ti faccio notare che finora abbiamo determinato lo scarto tipo di ripetibilità solo per un tenore di cellule uguale a 134.000 cellule/ml e che la Foss dà tre valori diversi a 100.000, a 300.000 e a 500.000 cellule/ml. In altri termini lo scarto tipo di ripetibilità è funzione della concentrazione di cellule. L Va bene, ma questo significa che dovremmo calcolare lo scarto tipo a tutti i livelli e quindi almeno da 100.000 cell/ml a 1.500.000 cell/ml. M È esattamente quello che dobbiamo fare per poter determinare una relazione che leghi lo scarto tipo del laboratorio alla concentrazione di cellule somatiche. Chiediamo a Valentina di effettuare 10 determinazioni su campioni di latte che coprano il campo da 100.000 a 1.500.000 cellule/ml. L Glielo chiedo subito. Ma noi ci rivediamo tra una settimana, perché devo anche lavorare, tu intanto leggiti questo sonetto e medita sulla statistica: Pag. 27 di 52
  • 29. Michele Rapillo Gli scarti... “tipi”... facili LA STATISTICA Sai ched'è la statistica? È na' cosa che serve pe fà un conto in generale de la gente che nasce, che sta male, che more, che va in carcere e che spósa. Ma pè me la statistica curiosa è dove c'entra la percentuale, pè via che, lì, la media è sempre eguale puro co' la persona bisognosa. Me spiego: da li conti che se fanno seconno le statistiche d'adesso risurta che te tocca un pollo all'anno: e, se nun entra nelle spese tue, t'entra ne la statistica lo stesso perch'è c'è un antro che ne magna due Trilussa Pag. 28 di 52
  • 30. Michele Rapillo Gli scarti... “tipi”... facili M Ciao Luis, Valentina è riuscita a fare le analisi come avevamo concordato? L Sì ecco i dati già in ordine crescente serie 1 2 3 4 5 6 7 8 9 10 11 180 297 720 127 650 435 493 198 530 1022 1413 186 300 733 128 655 445 530 200 541 1025 1421 187 306 740 131 655 449 551 201 545 1031 1423 187 309 745 132 659 449 552 214 548 1034 1424 Valori 188 312 750 133 665 456 552 216 556 1047 1428 190 318 759 135 670 460 554 216 559 1051 1432 194 320 764 135 683 460 555 217 561 1055 1441 197 323 765 136 684 462 561 221 562 1056 1454 197 323 775 140 688 464 567 221 568 1067 1479 200 324 780 145 700 480 571 221 572 1070 1487 M Molto bene. Ognuna di queste 11 serie dovrebbe essere sottoposta allo stesso procedimento che abbiamo usato prima e cioè: • verificare che siano normali, • individuare i valori anomali • decidere cosa fare dei valori anomali • calcolare la media di ogni serie • calcolare lo scarto tipo di ogni serie e quindi calcolare la relazione che lega gli scarti tipo ai vari livelli. Supponiamo per un istante di avere fatto tutto questo e chiamiamo sr il generico scarto tipo e x r le medie corrispondenti. Possono verificarsi due casi: a) sr non varia sensibilmente al variare di x r b) sr varia al variare di x r Nel caso a) è sufficiente calcolare la media quadratica pesata s r degli scarti tipo nel seguente modo (n1 =1)sr1 + (n2 =1)sr22 + (n3 =1)sr23 + .......(nn =1)srn 2 2 sr = (n1 =1) + (n2 =1) + ........(nn =1) Nel caso b) si ricerca la relazione funzionale che lega sr a x r Il criterio che determina la validità del caso a) o del caso b) si basa sul seguente test di Fisher s r2(max) F p=1 ; max, min s r2(min) Pag. 29 di 52
  • 31. Michele Rapillo Gli scarti... “tipi”... facili dove s r2(max) e s r2(min) sono rispettivamente la varianza massima e minima ed Fp; max , min è la variabile di Fisher, il cui valore è riportato in tabelle (ma vedremo anche in excel) in funzione di e di max = min = ni-1 essendo n il numero delle prove valide eseguite ad ogni livello. Il test può ancora essere utilizzato se il numero ni non è lo stesso per tutte le prove ma varia rispetto al valore medio di poco es. + 1. Un altro test utilizzabile (meno restrittivo, ma più complesso) è il test di Bartlett7 A questo punto, se siamo nel primo caso, il problema non si pone, se siamo nel secondo caso, excel ci consente di calcolare la relazione che lega lo scarto tipo alla media. L Bene, quindi applicando la tua teoria adesso io determino, utilizzando il normal probability plot, se i dati di Valentina sono tutti distribuiti normalmente e se vi sono dati anomali, mentre tu fai quattro chiacchiere con Fabrizio che prima ti ha cercato. M Ciao Luis, come siamo messi? L Ho riportato tutti i dati sul normal probability plot, ho tracciato con excel le 11 rette di correlazione ed ho determinato, sempre con excel il coefficiente di correlazione r2 di ogni retta. I risultati sono stati i seguenti: serie 1 2 3 4 5 6 7 8 9 10 11 r2 0,94 0,89 0,96 0,95 0,93 0,96 0,73 0,77 0,95 0,95 0,89 Ho quindi deciso di ritenere non accettabili i dati con un coefficiente di correlazione minore di 0,89 e quindi ho scartato le serie 7 e 8. Per quanto riguarda infine i dati anomali, da una prima occhiata al probability plot, l’unica serie che mi dato l’impressione di avere dati anomali è stata la 11, ed a questa ho applicato il test di Huber, che ha evidenziato come dati anomali il 1479 e il 1487; prima di eliminarli però ho calcolato la media e lo scarto tipo di ogni serie, e poiché l’eliminazione di entrambi i dati mi avrebbe evidenziato anche il 1454 come dato anomalo, e mi avrebbe restituito uno scarto tipo di 8,86, cosa ovviamente improbabile se paragonata alle altre s, ho deciso di eliminare solo 1487, cosa che mi ha portato alla seguente situazione. serie 1 2 3 4 5 6 9 10 11 180 297 720 127 650 435 530 1022 1413 186 300 733 128 655 445 541 1025 1421 187 306 740 131 655 449 545 1031 1423 187 309 745 132 659 449 548 1034 1424 Valori 188 312 750 133 665 456 556 1047 1428 190 318 759 135 670 460 559 1051 1432 194 320 764 135 683 460 561 1055 1441 197 323 765 136 684 462 562 1056 1454 197 323 775 140 688 464 568 1067 1479 200 324 780 145 700 480 572 1070 media 190,6 313,2 753,1 134,2 670,9 456 554,2 1045,8 1440,2 sr 6,22 9,92 18,99 5,39 16,926 12,33 13,01 17,023 20,42 Pag. 30 di 52
  • 32. Michele Rapillo Gli scarti... “tipi”... facili A questo punto dobbiamo applicare il test di Fisher, per poter affermare con sicurezza quello che a prima vista sembra evidente, cioè se lo scarto tipo varia sensibilmente al variare della media. Come si fa? 2 s r (max) M Dobbiamo ricorrere alla relazione 2 Fp=1 ; max, min s r (min) 2 2 2 2 2 s r (max) Nel nostro caso essendo s r (max) = (20,42) = 417 e s r (min) = (5,39) = 29,1 si ha che 2 = 14,35 s r (min) per il calcolo di F ricorriamo ancora una volta ad excel operando come segue: 2 • fissata una probabilità del 5%, poiché il numero di dati relativi a s r (max) è 9 e il numero di dati 2 relativi a s r (min) è 10, si ha che (max) =8e (min) = 9. • Dalla funzione excel INV.F(0,05;8;9) si ottiene F = 3,23. 2 s r (max) Essendo 2 = 14,35 > 3,23 si deduce che le varianze, come ci aspettavamo, sono s r (min) significativamente diverse al variare della media del campione da cui derivano. Questa situazione ci impone di ricercare la funzione che meglio interpola le s in funzione delle medie, ricorrendo ancora una volta ad excel. Dal comando “inserisci grafico” si sceglie la “dispersione xy” e si inseriscono come x i valori delle medie e come y i valori degli scarti tipo, quindi si clicca sul comando “inserisci linea di tendenza”. Excel consente di disegnare diverse linee di tendenza restituendone anche l’equazione e il coefficiente di correlazione r2, noi abbiamo considerato le seguenti: Tipo di regressione Equazione r2 Regressione lineare che passa per lo 0 s = 0,0187x 0,3873 Regressione lineare con intercetta s = 0,016x + 6,1768 0,8134 Regressione esponenziale s = 6,6689e0,001x 0,7314 Regressione di potenza s = 0,2934x0,6023 0,9435 Regressione logaritmica s = 6,7758Ln(x) - 28,569 0,9376 La relazione da scegliere è ovviamente quella che presenta il valore di r2 più prossimo ad 1 e quindi la regressione di potenza. L Va bene, tu sai quanto ti stimo, ma a questo punto sarei molto più tranquillo se potessimo effettuare una verifica indipendente dei nostri calcoli. M Conoscendoti, ho portato con me uno strumento molto interessante, che può aiutarci allo scopo, il prezioso software dell’UNICHIM16 L E che aspettiamo ad usarlo? M Guarda, che finora l’ho già usato diverse volte. Lo usiamo anche adesso. Pag. 31 di 52
  • 33. Michele Rapillo Gli scarti... “tipi”... facili Il procedimento è semplice: • inseriamo i dati, premiamo il tasto calcoli e premiamo il tasto “test di normalità” ed ecco il risultato dove sono evidenziati in rosso i dati anomali La settima e l’ottava serie non hanno una distribuzione normale, per cui le dobbiamo eliminare e rifare il calcolo. Dal nuovo calcolo non emergono serie non normali, ma è evidenziato un dato anomalo che eliminiamo e, rifacendo il calcolo otteniamo: Pag. 32 di 52
  • 34. Michele Rapillo Gli scarti... “tipi”... facili M A questo punto dobbiamo decidere cosa fare dell’ulteriore dato anomalo. Se lo eliminiamo otteniamo uno scarto tipo pari a 12,9, che è molto più basso di quello per una media di 1000 cellule. Inoltre se eliminiamo anche questo dato anomalo ci troveremo in una condizione estremamente favorevole, nel senso che, eliminandolo, ci dobbiamo aspettare un CV% molto basso che quindi potrebbe non rispecchiare la variabilità vera delle risposte analitiche. D’altro canto tu mi insegni che la conta delle cellule somatiche può dipendere anche dalle altre caratteristiche del latte (grasso, proteine, indice crioscopico, ecc.). Fatte queste considerazioni ti propongo di non eliminare il valore 1479. A questo punto continuiamo con il nostro calcolo, sfruttando le ulteriori caratteristiche del software UNICHIM16 ed effettuando quindi un confronto tra le varianze, che risultano non omogenee tra di loro. In particolare, leggi cosa riporta il manuale che accompagna il software: La disomogeneità delle varianze che si evidenzia è una conseguenza diretta della situazione per cui la variabilità delle misure aumenta col crescere della concentrazione, il cui livello è espresso dalla media: si deve allora studiare una possibile relazione funzionale fra scarto tipo e media delle diverse serie (colonne) di dati, che consenta di calcolare lo scarto tipo, e quindi la ripetibilità, anche per concentrazioni diverse da quelle dei campioni sottoposti alle misure replicate. Viene allora effettuata un'ulteriore elaborazione, che sul foglio DATI2 mostra oltre ai dati ordinati e alle statistiche base già rilevate in precedenza – i risultati del calcolo delle regressioni fra scarto tipo e media secondo tre diversi modelli: - regressione lineare che passa per lo 0 ( y = bx ) - regressione lineare con intercetta ( y = a + b x ) - regressione doppio-logaritmica ( logy = c + d logx ) La riga inferiore di ciascuna sezione contiene gli scarti tipo calcolati in base all'equazione di regressione in funzione dei valori delle relative medie (riga 14). Secondo il criterio suggerito, è da preferire quel modello (equazione) per cui la somma dei quadrati delle differenze fra lo Pag. 33 di 52
  • 35. Michele Rapillo Gli scarti... “tipi”... facili scarto tipo calcolato e misurato (riga 15) risulta minimo. Questa SQ (somma dei quadrati) minima viene evidenziata sul foglio. I risultati di tale elaborazione sono i seguenti: M La relazione è quindi: y = 0,6023x - 0,5325 dove, avendo posto y = log(s) e x = log(x), si ha che lo scarto tipo di ripetibilità è espresso dalla relazione S = 10(c+d*log(x)) Che con i dati ottenuti c = -0,5323 - d = 0,6023 - x = tenore di cellule diventa s = 10 (0,6023logx -0,5325) ricordando alcune elementari proprietà dei logaritmi e delle potenze, con semplici manipolazioni si ottiene s = 0,2934x0,6023 che è esattamente uguale a quella da noi calcolata per altra via utilizzando la correlazione di potenza in excel. Ad un’analisi più attenta, si rileva che le altre equazioni presentano una certa differenza, ma la cosa è praticamente irrilevante in quanto, la retta di correlazione passante per l’origine ha un r2 = 0,39 e quindi indica una mancanza di correlazione, mentre quella con intercetta ha un r2 = 0,81, indice di una correlazione quasi accettabile, differisce da quella dell’UNICHIM in quanto dà risultati in alcuni casi migliori in altri peggiori, come si può vedere dalla tabella seguente. Pag. 34 di 52
  • 36. Michele Rapillo Gli scarti... “tipi”... facili media 190,60 313,20 753,10 134,20 670,90 456,00 554,20 1045,80 1435,00 scarto tipo vero 6,22 9,92 18,99 5,39 16,92 12,33 13,01 17,03 20,42 Scarto tipo calcolato UNICHIM: 6,79 8,57 14,94 5,98 13,75 10,64 12,06 19,18 24,82 Scarto tipo calcolato con excel 8,39 9,81 14,91 7,73 13,96 11,47 12,61 18,31 22,82 differenza % UNICHIM 9,17% -13,62% -21,32% 10,84% -18,75% -13,73% -7,32% 12,63% 21,52% differenza % EXCEL 23,48% 14,49% -0,18% 29,42% 1,53% 7,80% 4,54% -4,54% -8,03% Ti basta questa verifica? L Si, molto bene, poi mi dici come posso fare per acquisire il software dell’UNICHIM16. M Questo te lo dico subito: basta che tu telefoni all’UNICHIM allo 02/76004450 o ti colleghi al sito http://www.unichim.it. Ma continuando con i nostri calcoli; a questo punto, per completare la prima parte del nostro lavoro dobbiamo calcolare il limite di ripetibilità e il CV% che al 95% di probabilità è espresso come: r = t1 0,95;n 1 S r 2 Dove t al 95% con n-1 = = 8 gradi di libertà (n = numero di dati della serie con minor numero di dati) può essere calcolato da excel con la formula =INV.T(0,05;9) e quindi sostituendo il valore trovato nella precedente si ha r = 2,306 S r 2 Dove Sr si ricava dalla formula precedentemente determinata Sr = 0,2934x0,6023 A questo punto possiamo determinare il CV. Con semplici passaggi si ha che CV= s/x = 0,2934 *x(-1)x0,6023 = 0,2934*x(-0,3977) E con questo la prima parte del nostro lavoro si può considerare completata in quanto abbiamo calcolato tutti i parametri che ci interessavano. L E no! Come sai bene uno dei criteri per il controllo della qualità di un risultato di prova è l’effettuazione di una prova in doppio, e con quello che abbiamo detto, la situazione è abbastanza complicata, come possiamo fare? M Per le prove in doppio, nel nostro caso e con un livello di confidenza del 95%, vale la relazione18 18 N. Bottazzini e L. Cavalli Guida al calcolo della ripetibilità di un metodo di prova ed alla sua verifica nel tempo Seminario SINAL, settembre 2007 Pag. 35 di 52