STATISTICĂ APLICATĂ ÎN
ŞTIINŢELE SOCIO-UMANE
Analiza asocierilor şi a diferenţelor statistice

Cristian Opariuc-Dan

Const...
Cristian Opariuc-Dan

Fiicei mele, Riana-Ingrid

3
Statistică aplicată în ştiinţele socio-umane

Cuprins
Cuprins ...............................................................
Cristian Opariuc-Dan
I.4.1

Grade de libertate ................................................................... 106

I....
Statistică aplicată în ştiinţele socio-umane

II.6.2

Procedee parametrice ..................................................
Cristian Opariuc-Dan

Prefață
Cartea domnului Cristian Opariuc-Dan, intitulată „Statistică aplicată
în ştiinţele socio-uma...
Statistică aplicată în ştiinţele socio-umane

cutat şi asupra domeniul statisticii aplicate. Au apărut o serie de autori c...
Cristian Opariuc-Dan
teoria probabilităţilor. Dacă nu aţi urmat niciodată astfel de cursuri, e foarte
bine”. Ce putem să s...
Statistică aplicată în ştiinţele socio-umane

acordat pentru realizarea unor activităţi rutiniere, însă care nu poate fi u...
Cristian Opariuc-Dan

Cuvântul autorului
Bine v-am regăsit! După ce am aprofundat aspectele referitoare la
analiza unei si...
Statistică aplicată în ştiinţele socio-umane

rânduri. Scutindu-mă, de multe ori, de treburile casnice, încurajându-mă să
...
Cristian Opariuc-Dan

I. RELAŢII ÎNTRE VARIABILE
În acest capitol se va discuta despre:



Conceptul de covarianţă şi co...
Statistică aplicată în ştiinţele socio-umane

studenţilor, sau poate reprezenta o combinaţie a acestor elemente. După ce
a...
Cristian Opariuc-Dan
metode reunite sub numele de analize multivariate. Aţi observat că prefer
folosirea termenului de rel...
Statistică aplicată în ştiinţele socio-umane

Urmăriţi figura 1.1. Am reprezentat aici două variabile, variabila X şi
vari...
Cristian Opariuc-Dan
∑
̅

̅

(formula 1.1)

Am obţinut, astfel, formula covarianţei pe care o putem acum aplica
datelor no...
Statistică aplicată în ştiinţele socio-umane

relaţie matematică între două variabile. Ar fi mai degrabă vorba de covarian...
Cristian Opariuc-Dan
În acest sens, există mai mulţi indici ai relaţiilor dintre variabile, utilizabili în funcţie de tipu...
Statistică aplicată în ştiinţele socio-umane

După cum observăm, cele două variabile se află la un nivel de măsură
scalar,...
Cristian Opariuc-Dan
Iată şi coeficientul de corelaţie a rangurilor, în valoare de 0,96. Am
obţinut o corelaţie pozitivă ş...
Statistică aplicată în ştiinţele socio-umane

După calculul rangurilor, am efectuat produsul rangurilor şi ridicarea
la pă...
Cristian Opariuc-Dan
ce şanse avem ca indicatorul obţinut să rezulte în urma unor erori de eşantionare. Putem accepta semn...
Statistică aplicată în ştiinţele socio-umane

este altceva decât o variantă ordinală a coeficientului r Bravais-Pearson, d...
Cristian Opariuc-Dan
uă variabile, în timp ce valorile apropiate de -1 indică existenţa unei asocieri
inverse (negative). ...
Statistică aplicată în ştiinţele socio-umane

Există o legătură logică între mărimea coeficientului ce corelaţie şi
semnif...
Cristian Opariuc-Dan
bazează pe numărarea inversiunilor (cazul în care un element care are un
rang mai mare pentru o varia...
Statistică aplicată în ştiinţele socio-umane

A doua linie nu presupune inversiuni, toate comparaţiile fiind în ordinea na...
Cristian Opariuc-Dan
pe care nu le vom discuta aici. Menţionăm numai ca τb se foloseşte în cazul
variabilelor cu un număr ...
Statistică aplicată în ştiinţele socio-umane

Practic nu am făcut decât să generalizăm formula anterioară de calcul
a aces...
Cristian Opariuc-Dan
(

)

(formula 1.9)

Reluând exemplul de mai sus, avem un număr de 3 inversiuni (3 – 1;
3 – 2; 4,5 – ...
Statistică aplicată în ştiinţele socio-umane

lei de-a doua variabile. Nu va speriaţi. Clarificăm imediat aceste concepte
...
Cristian Opariuc-Dan
Suma S+ se va calcula ţinând cont doar de rangurile celei de-a doua
variabile, în cazul nostru, chimi...
Statistică aplicată în ştiinţele socio-umane

(

)

(

)

Având valorile pentru S+ şi S-, putem acum calcula suma lui Kend...
Cristian Opariuc-Dan
Acest coeficient de corelaţie se poate utiliza în condiţiile în care ambele variabile sunt ordinale s...
Statistică aplicată în ştiinţele socio-umane

Statistica z a coeficientului de corelaţie τ Kendall se raportează la distri...
Cristian Opariuc-Dan
La această cercetare au participat un număr de 206 persoane, 99 bărbaţi şi 107 femei. Dintre aceştia,...
Statistică aplicată în ştiinţele socio-umane

ţiei cu variantele muncitor, maistru şi inginer), se aplică formula generală...
Cristian Opariuc-Dan
Coeficientul de contingenţă χ2, după cum aţi putut constata, este simplu de înţeles şi de calculat. D...
Statistică aplicată în ştiinţele socio-umane

Numărul de cazuri din fiecare categorie îl notăm, aşa cum ştim deja,
cu lite...
Cristian Opariuc-Dan
Nu s-a schimbat nimic în logica aplicării formulei. S-a schimbat doar
notaţia şi modul în care s-au a...
Statistică aplicată în ştiinţele socio-umane

observăm că acest coeficient este semnificativ la un prag de semnificaţie ma...
Cristian Opariuc-Dan
Tabelul 1.12 – Schema generală de calcul a coeficientului φ
Variabila X
Absenţă X
Prezenţă X
Absent X...
Statistică aplicată în ştiinţele socio-umane

Avem următoarele date: un număr de 80 de blonzi cu ochi albaştri
(PXY), un n...
Cristian Opariuc-Dan
Nu intrăm în detalii legate de acest coeficient, simplitatea lui excluzând orice fel de comentarii. V...
Statistică aplicată în ştiinţele socio-umane

dintre variabile prezintă mai mult de două categorii, fiind o versiune mai p...
Cristian Opariuc-Dan
Dacă luăm exemplul coeficientului de contingenţă, acesta are valoarea
0,14. Am arătat deja că această...
Statistică aplicată în ştiinţele socio-umane

I.1.5 Coeficientul de asociere λ (lambda) Goodman şi
Kruskal
Coeficientul λ ...
Cristian Opariuc-Dan
Structura tabelului este clară. Dintre cei care preferă PSD, 12 persoane au un nivel de stres foarte ...
Statistică aplicată în ştiinţele socio-umane

I.1.5.1 Semnificaţia coeficientului λ
Coeficientul λ este un alt coeficient ...
Cristian Opariuc-Dan
valori mici de referinţă, de 10%, 5%, 3% sau 1%. Exprimat sub formă de
proporţii, valori de 0,10, 0,0...
Statistică aplicată în ştiinţele socio-umane

ten ori prietenă, cred că puteţi să impresionaţi şi altfel. Dacă veţi scrie ...
Cristian Opariuc-Dan
decât prin modalitatea de calcul. Acum haideţi să înlocuim şi să găsim varianţa coeficientului λ.
∑

...
Statistică aplicată în ştiinţele socio-umane

(formula 1.23)
în care Pc reprezintă numărul perechilor concordante, iar Pd ...
Cristian Opariuc-Dan
Acum să revenim. Convenim să reprezentăm rezultatul acestei cercetări sub forma unui nou tabel de con...
Statistică aplicată în ştiinţele socio-umane

lui anterior (şi aici vorbim de coeficientul λ propus de aceiaşi savanţi), u...
Cristian Opariuc-Dan
În cadrul acestei formule, coloanele A, B, C, D reprezintă proporţii şi
nu frecvenţe absolute. Coefic...
Statistică aplicată în ştiinţele socio-umane

În cazul în care anxietatea ar fi fost evaluată, să presupunem, pe o scală d...
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Statistica aplicata in stiintele socio umane. Volumul II
Upcoming SlideShare
Loading in...5
×

Statistica aplicata in stiintele socio umane. Volumul II

343

Published on

Published in: Marketing
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
343
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
24
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Statistica aplicata in stiintele socio umane. Volumul II

  1. 1. STATISTICĂ APLICATĂ ÎN ŞTIINŢELE SOCIO-UMANE Analiza asocierilor şi a diferenţelor statistice Cristian Opariuc-Dan Constanţa, august 2011
  2. 2. Cristian Opariuc-Dan Fiicei mele, Riana-Ingrid 3
  3. 3. Statistică aplicată în ştiinţele socio-umane Cuprins Cuprins ............................................................................................................. 4 Prefață .............................................................................................................. 7 Cuvântul autorului ......................................................................................... 11 I. Relaţii între variabile ............................................................................. 13 I.1 Coeficienţi de corelaţie neparametrici ............................................ 18 I.1.1 Coeficientul de corelaţie a rangurilor ρ (rho) Spearman ......... 19 I.1.2 Coeficientul de corelaţie a rangurilor τ (tau) Kendall ............. 26 I.1.3 Coeficientul de contingenţă χ2 (chi pătrat) .............................. 36 I.1.4 Coeficientul de asociere φ (phi), coeficientul V Cramer şi coeficientul de contingenţă (cc), derivaţi din χ2 .................................... 42 I.1.5 Coeficientul de asociere λ (lambda) Goodman şi Kruskal ...... 48 I.1.6 Coeficientul de asociere γ (gamma) ........................................ 53 I.1.7 Coeficientul tetrachoric şi polichoric....................................... 56 I.1.8 Coeficientul de concordanţă W Kendall .................................. 58 I.1.9 Coeficientul de corelaţie rang biserială ................................... 62 I.2 Coeficienţi de corelaţie parametrici ................................................ 64 I.2.1 Coeficientul de corelaţie r Bravais-Pearson ............................ 64 I.2.2 Coeficientul de corelaţie biserial, punct biserial şi triserial ..... 78 I.2.3 Coeficientul de corelaţie eneahoric ......................................... 87 I.3 Corelaţii parţiale .............................................................................. 90 I.3.1 Corelaţii semi-parţiale ............................................................. 95 I.3.2 Corelaţii parţiale pentru date neparametrice ............................ 96 I.3.3 Semnificaţia corelaţiilor parţiale............................................ 100 I.4 Interpretarea coeficienţilor de corelaţie ........................................ 102 4
  4. 4. Cristian Opariuc-Dan I.4.1 Grade de libertate ................................................................... 106 I.4.2 Efecte exercitate şi varianţă ................................................... 107 I.4.3 Strategii de analiză şi interpretare a corelaţiilor .................... 109 I.5 Obţinerea coeficienţilor de corelaţie în SPSS ............................... 117 I.5.1 I.5.2 Coeficienţi de corelaţie bazaţi pe date neparametrice ........... 134 I.5.3 II. Coeficienţi de corelaţie bazaţi pe date parametrice ............... 117 Raportarea studiilor corelaţionale .......................................... 155 Diferenţe statistice bivariate ................................................................ 160 II.1 Planuri de cercetare ....................................................................... 161 II.1.1 Planuri de cercetare de bază .................................................. 165 II.1.2 Planuri de cercetare complexe ............................................... 174 II.2 Teste statistice pentru date neparametrice .................................... 182 II.2.1 Diferența dintre frecvențe. Testul χ2 ...................................... 182 II.2.2 Teste pentru eșantioane independente ................................... 188 II.2.3 Teste pentru eșantioane dependente ...................................... 200 II.3 Teste statistice pentru date parametrice ........................................ 205 II.3.1 Teste pentru un singur eșantion ............................................. 206 II.3.2 Teste pentru două eșantioane independente .......................... 212 II.3.3 Teste pentru două eșantioane perechi .................................... 216 II.4 Teste statistice de normalitate și teste pentru valori aberante ....... 220 II.4.1 Teste pentru valori aberante................................................... 221 II.4.2 Teste de normalitate ............................................................... 226 II.5 Interpretarea testelor statistice ...................................................... 234 II.5.1 II.6 Puterea testului și mărimea efectului ..................................... 238 Realizarea testelor statistice în SPSS ............................................ 253 II.6.1 Procedee neparametrice ......................................................... 254 5
  5. 5. Statistică aplicată în ştiinţele socio-umane II.6.2 Procedee parametrice ............................................................. 267 II.6.3 Analiza normalității și a scorurilor aberante .......................... 274 Analiza fidelităţii .............................................................................. 283 III. III.1 Metode de analiză a fidelităţii ................................................... 288 III.1.1 Metoda test-retest................................................................... 290 III.1.2 Metoda înjumătăţirii .............................................................. 291 III.1.3 Metoda consistenţei interne ................................................... 298 III.1.4 Metoda formelor paralele ...................................................... 306 III.1.5 Metoda acordului între evaluatori .......................................... 307 III.1.6 Interpretarea coeficienţilor de fidelitate................................. 310 III.2 Analiza fidelităţii în SPSS for Windows ................................... 312 III.2.1 Analiza consistenţei interne ................................................... 318 III.2.2 Analiza fidelităţii prin metoda înjumătăţirii .......................... 337 III.2.3 Analiza fidelităţii prin metoda formelor paralele .................. 341 III.2.4 Analiza fidelităţii inter-evaluatori.......................................... 343 III.2.5 Analiza fidelităţii test-retest (stabilităţii) ............................... 346 III.2.6 Consideraţii finale .................................................................. 347 Bibliografie .................................................................................................. 350 Anexe ........................................................................................................... 352 6
  6. 6. Cristian Opariuc-Dan Prefață Cartea domnului Cristian Opariuc-Dan, intitulată „Statistică aplicată în ştiinţele socio-umane. Analiza asocierilor şi diferenţelor statistice” este o continuare firească a primului volum apărut, nu cu mult timp în urmă, la editura ASCR din Cluj-Napoca. Continuarea realizată în lucrarea de faţă este semnului unei perseverenţe lăudabile, dovadă a pasiunii domniei sale faţă de conţinutul acestei onorabile discipline. Continuitatea se manifestă şi în partea stilului năvalnic, care parcă vrea să spună totul dintr-o suflare, care vrea să epuizeze ultimele rezerve faţă de disciplina statisticii din sufletul cititorului dornic de iniţiere. Ca atare, exemplele sunt foarte numeroase şi cât se poate de adecvate. Nu sunt aşa de îndepărtate vremurile în care cunoştinţele statistice erau o raritate în arealul specialiştilor din domeniul ştiinţelor socio-umane. În rândul psihologilor, acestea erau păstrate şi răspândite de o elită intelectuală, din care amintim numele lui Nicolae Mărgineanu ca fiind cel mai reprezentativ. Între 1950 şi 1989, pregătirea în sfera metodelor cantitative din domeniul psihologiei era destul de sumară, delimitată strict la prezentarea câtorva noţiuni fundamentale şi, mai ales, a distribuţiei normale Gauss – Laplace, în aspectul figurativ, nu de conţinut. O bună parte dintre psihologii practicieni nu au terminat sau aprofundat studii de psihologie, ca atare, chiar construcţia etaloanelor li se părea o taină de nepătruns. Analizele multivariate păreau realităţi galactice, greu accesibile pentru psihologul practician care nu avea o ambianţă profesională de pregătire continuă. Încercarea de lichidare a psihologiei din ultimii ani ai dictaturii comuniste părea să extindă ignoranţa în privinţa metodelor ştiinţifice de abordare a acestui domeniu. După anul de cotitură 1989, învăţământul românesc de psihologie s-a revigorat şi a evoluat rapid, cred eu mai mult extensiv, situaţie care s-a reper7
  7. 7. Statistică aplicată în ştiinţele socio-umane cutat şi asupra domeniul statisticii aplicate. Au apărut o serie de autori competenţi, cu deosebit potenţial, cu stagii de pregătire în străinătate, care au elaborat lucrări în domeniu comparabile cu cele din ţările cu tradiţie în cercetarea psihologică. Dintre aceşti autori amintim pe Ilie Puiu Vasilescu, practic un deschizător de drumuri în domeniu, după 1989, Florin Sava, Mihai Hohn, Filaret Sîntion, regretatul coleg Horia Pitariu, Dragoş Iliescu, Marian Popa, Adrian Vicenţiu Labăr, Monica Albu. În acest cerc select cred că a reuşit să intre şi Cristian Opariuc-Dan. Ne putem întreba: care este motivul pentru care autorul dă dovadă de pedantism în cursul lucrării, care face conţinutul comprehensibil și pentru persoane cu o slabă pregătire academică? Pentru cineva care nu lucrează în domeniul pe care l-a îmbrăţişat autorul cărţii, suprasaturarea cu explicaţii pare de neînţeles. Adevărul este că statistica se prezintă ca o disciplină greu asimilabilă de către studenţii de la psihologie. Venind să studieze psihologia, o disciplină prin excelenţă umanistă, o parte dintre ei cred că au scăpat definitiv de tabelele, ecuaţiile şi demonstraţiile din anii de liceu, dar, constată că, chiar din primul an, reîncep o disciplină matematizată pentru care nu au pasiune şi înclinaţii. În ţările cu tradiţie în studiul psihologiei au apărut articole care explică de ce studenţii au aversiune faţă de statistică şi tratamente matematice. Strict vorbind, statistica nu este chiar matematică, ci mai mult o colecţie de metode şi teorii care vizează modul de gestionare a ansamblurilor de date rezultate din cercetarea şi practica profesională, care implică parţial tratament matematic. În plus, să nu uităm, există în psihologie şi în varii domenii un curent de gândire anti-statistic care exagerează în ideea inadecvării metodelor cantitative în abordarea unor areale ale preocupărilor academice caracterizate de hiper-complexitate structurală şi supleţe funcţională. Un exponent al unui astfel de mod de gândire este cuprins în bestsellerul libanezului Nassim Nicholas Taleb, intitulat „Lebăda Neagră. Impactul foarte puţin probabilului”, apărut la Curtea Veche Publishing în 2010. La pagina 265 a acestei cărţi, el spune: „Uitaţi tot ce aţi auzit în facultate despre statistică sau 8
  8. 8. Cristian Opariuc-Dan teoria probabilităţilor. Dacă nu aţi urmat niciodată astfel de cursuri, e foarte bine”. Ce putem să spunem despre astfel de reacţii? A constata inadecvarea modelului gaussian, cum a făcut-o Taleb, nu îţi dă dreptul să negi importanţa unei discipline ştiinţifice aflată în extindere rapidă în aproape toate îndeletnicirile omeneşti. Pentru psihologi, absenţa disciplinei Statistică din programul de pregătire universitară de bază ar înseamnă lipsirea de un instrument absolut necesar de comunicare şi de verificare a cercetărilor ştiinţifice. Conştientizând importanţa predării acestei discipline pentru viitorul cercetător sau profesionist practician, cei care au proiectat curriculumul facultăţilor de psihologie au înregistrat statistica în rândul disciplinelor fundamentale, alături de introducere în psihologie, psihologia dezvoltării, psihologia socială, fundamentele ştiinţifice ale psihoterapiei, psihodiagnostic, metodele de cercetare şi psihologia diferenţială. O anchetă efectuată în Statele Unite ale Americii în rândul foştilor absolvenţi de psihologie, referitoare la importanţa disciplinelor ştiinţifice predate în facultate asupra succesului profesional, indică statistica pe locul al treilea, după psihologia socială şi psihoterapie. Lucrarea domnului Opariuc-Dan are ca bază de pornire dificultăţile întâmpinate de studenţi în înţelegerea statisticii. Experienţa în predarea disciplinei Statistică aplicată în psihologie, m-a ajutat să detectez două puncte esenţiale ale acestor dificultăţi: clara înţelegere a noţiunilor predate şi aplicarea robotică a unor formule pentru a evidenţia semnificaţia rezultatelor cercetării. Insuficienta insistare asupra acestor două aspecte duce la formarea unor deprinderi procustiene, care vor avea drept consecinţă simplismul interpretativ. La aceiaşi concluzie pare să fi ajuns şi autorul cărţii atunci când insistă, precum Cato în senatul Romei, asupra combaterii proastelor deprinderi în practicarea statisticii. Imensa maşinărie statistică numită SPSS este o invenţie minunată, care ajută studenţii, cercetătorii şi practicienii să scurteze la minimum timpul 9
  9. 9. Statistică aplicată în ştiinţele socio-umane acordat pentru realizarea unor activităţi rutiniere, însă care nu poate fi utilizată fără cunoaşterea suficientă specificului aplicativ al unor proceduri. Nu întâmplător, autorul insistă atât de mult pe corectitudinea unor aplicaţii statistice şi pe oportunitatea lor. În aplicarea unor tipuri de analize factoriale, realizatorii unor studii trebuie să cunoască bine exigenţe referitoare dimensiunea scalară a datelor, la liniaritatea relaţiilor între variabile şi la numărul minim de subiecţi care trebuie să fie prezenţi în cercetare. Dacă nu suntem atenţi la astfel de aspecte, riscăm să fim catalogaţi drept creatori de artefacte în activitatea ştiinţifică şi de folosire abuzivă, incompetentă a unor creaţii tehnice de excepţie. Cristian Opariuc-Dan a relevat bine deficienţele de înţelegere ale statisticii de către studenţi, şi ne oferă o lucrare de un impresionant efort analitic şi sintetic. Conf. univ. dr. Aurel Stan Universitatea Al. I. Cuza Iași Facultatea de Psihologie și Științe ale Educației 10
  10. 10. Cristian Opariuc-Dan Cuvântul autorului Bine v-am regăsit! După ce am aprofundat aspectele referitoare la analiza unei singure variabile – statistici pe care le-am numit statistici univariate –, a venit timpul să ne concentrăm asupra analizei relaţiilor dintre două sau mai multe variabile. Lucrurile nu sunt deloc complicate, în comparaţie cu cele prezentate în prima lucrare. Avem şi aici algoritmi clari de lucru, şi ne ajută acelaşi pachet binecunoscut de programe, SPSS. De data aceasta, nu vom mai analiza în detaliu o singură variabilă, ci ne vom concentra asupra legăturilor care există între variabile. Vom încerca să aflăm care este legătura dintre lungimea părului şi coeficientul de inteligenţă, sau dacă pletoşii sunt, ori nu sunt, mai inteligenţi în comparaţie cu cei care au părul scurt. De asemenea, vom încerca să vedem în ce mod o variabilă poate fi influenţată de alte variabile; dacă inteligenţa unui copil poate fi apreciată în baza notelor pe care acesta le are la matematică, fizică, chimie, limba română ori alte discipline. Pornind tot de la relaţiile dintre variabile, vom încerca să aflăm dacă din răspunsurile la întrebările unui chestionar putem afla un element comun, şi cât de precis este acesta. În limbaj „tehnic”, vom studia elemente legate de corelaţii, diferenţe şi studiul fidelităţii, toate cu referire la date parametrice şi neparametrice. Unii vor spune că analiza fidelităţii prezintă un grad mai ridicat de dificultate, iar aceste elemente nu trebuie tratate împreună. Să vedem dacă este chiar aşa. Nu-i voi uita pe cei care m-au ajutat să scriu acest volum și care au contribuit, într-o formă sau alta, la apariția cărții. Îi mulțumesc soției mele, Iulia-Laura, pentru răbdarea pe care a avut-o cu mine, în lungile zile în care nu m-am despărțit de computer, scriind aceste 11
  11. 11. Statistică aplicată în ştiinţele socio-umane rânduri. Scutindu-mă, de multe ori, de treburile casnice, încurajându-mă să scriu, soția mea a accelerat în mod semnificativ apariția acestui volum. Recunoștința mea se îndreaptă către profesorul universitar Ilie Puiu Vasilescu de la universitatea Wise din Virginia, Statele Unite, din ale cărui cărți am învățat statistică, și care a binevoit să analizeze critic documentul, corectându-mă atunci când am greșit. De asemenea, profesorul universitar Corneliu Eugen Havârneanu și-a adus o importantă contribuție, fiind atât cel de la care am învățat elementele de bază ale analizei de date, cât și cel care a avut răbdarea de a citi documentul, a-mi face observații pertinente și a furniza impresiile sale referitoare la carte. Ca întotdeauna, profesorul Aurel Stan s-a ocupat și de această carte, de la impresii și corectură la procesul redacțional, lucru pentru care îi sunt profund recunoscător. De asemenea, țin să aduc mulțumiri profesorului Filaret Sîntion, de la universitatea Ovidius Constanța, pentru numeroasele seri petrecute împreună, momente în care discuțiile noastre pe această temă au contribuit la consolidarea și sistematizarea acestui volum. Mulțumiri speciale aș dori să aduc doamnei profesor Monica Albu. Observațiile și criticile constructive aduse de domnia sa au contribuit, sper, la o calitate superioară a acestei lucrări. Exigența de care a dat dovadă mă ajută să mă perfecționez și să pot, la un moment dat, să ating standardele la care doamna profesor se raportează. Nu în ultimul rând, vă mulțumesc dumneavoastră, celor care ați cumpărat această carte, onorându-mă astfel cu dorința de a învăța. V-am promis în primul volum că vă voi scoate la lumină, în ceea ce priveşte metoda statistică, aplicată în ştiinţele socio-umane. Consider că am făcut-o. Acum haideţi să schimbăm becul de 60 de waţi, pe care l-am aprins în primul volum, cu un bec de 100 de waţi, şi să facem şi mai multă lumină… Constanţa, 9 august 2011 12
  12. 12. Cristian Opariuc-Dan I. RELAŢII ÎNTRE VARIABILE În acest capitol se va discuta despre:   Conceptul de covarianţă şi corelaţie; Calculul coeficienţilor de corelaţie parametrici şi neparametrici;  Analiza şi interpretarea coeficienţilor de corelaţie;  Reprezentarea grafică şi analiza graficelor corelaţiilor; După parcurgerea capitolului, cititorii vor fi capabili să:     Înţeleagă diferenţa dintre covarianţă şi corelaţie; Calculeze coeficienţii de corelaţie parametrici şi neparametrici; Analizeze şi să interpreteze coeficienţii de corelaţie; Utilizeze SPSS în calculul coeficienţilor de corelaţie. În general, într-o cercetare ştiinţifică, nu ne putem rezuma doar la studiul unei singure variabile, deşi acest pas este important pentru stabilirea normalităţii distribuţiei. Faptul că notele obţinute de către candidaţi la un examen de admitere la facultate sunt sau nu sunt distribuite normal, este de mare importanţă, atât pentru aflarea nivelului candidaţilor respectivi, cât şi în vederea stabilirii procedurilor ulterioare de analiză. Nu ne putem, însă, rezuma doar la acest lucru. Ne-ar interesa, poate, să aflăm dacă există vreo legătură între aceste note şi coeficientul de inteligenţă, să vedem dacă, într-adevăr, cei cu medii mari la admitere au şi un coeficient de inteligenţă ridicat, sau din contra. Aceasta este o problemă specifică, ce poate fi abordată printr-un studiu corelaţional. Ca în orice studiu ştiinţific, începem de la un fapt de observaţie. De exemplu, constatăm în ultimii ani o reducere a calităţii sistemului de învăţământ universitar. Problema poate fi la nivelul cadrelor didactice, al 13
  13. 13. Statistică aplicată în ştiinţele socio-umane studenţilor, sau poate reprezenta o combinaţie a acestor elemente. După ce am citit „o sută” de articole referitoare la această temă, după ce am studiat cercetările existente, putem ajunge la concluzia investigării relaţiei dintre mediile anilor de studiu din liceu, media de la bacalaureat şi coeficientul de inteligenţă. Putem, aşadar, formula obiectivul studiului: investigarea relaţiei dintre media de admitere la universitate şi coeficientul de inteligenţă. În mod cert, după stabilirea obiectivului, va trebui să formulăm ipoteza sau ipotezele cercetării. În cazul nostru, ipoteza de cercetare devine: H1: Există o relaţie între nivelul de inteligenţă şi media de admitere a candidaţilor în învăţământul superior. Această ipoteză este evident o ipoteză bidirecţională, şi ne duce cu gândul la un studiu corelaţional. După cum ştim, ipoteza de cercetare nu poate fi confirmată sau infirmată. Toate analizele se fac pe baza ipotezei nule. În situaţia de faţă, ipoteza nulă va fi: H0: Nu există nicio relaţie între nivelul de inteligenţă şi media de admitere a candidaţilor în învăţământul superior. Din simpla parcurgere a ipotezei, putem identifica foarte uşor atât planul de cercetare – evident un plan corelaţional cu două variabile continui – cât şi variabilele – coeficientul de inteligenţă şi media de admitere. Nu ne rămâne decât să colectăm datele prin administrarea unui test de inteligenţă şi prin înregistrarea mediilor de admitere ale candidaţilor şi astfel obţinem baza de date a cercetării noastre. Ambele variabile fiind scalare, în următoarea etapă vom proceda la analiza normalităţii distribuţiei acestora. Dar după aceea, ce facem? Bineînţeles, intenţionăm să studiem relaţia dintre aceste două variabile. Relaţiile stabilite din analiza a două variabile se numesc analize bivariate, deoarece este posibil să studiem relaţiile dintre mai multe variabile, 14
  14. 14. Cristian Opariuc-Dan metode reunite sub numele de analize multivariate. Aţi observat că prefer folosirea termenului de relaţie şi nu a celui de corelaţie. Care ar fi diferenţa? Întregul concept al investigării gradului de asociere între două variabile se bazează pe covarianţă. Ce este, însă, covarianţa? Vă mai amintiţi de termenul de varianţă folosit în prima lucrare? Am definit atunci acest element ca fiind media abaterilor scorurilor faţă de tendinţa centrală (Opariuc-Dan, 2009). Lucram atunci doar cu o singură variabilă. Dacă am include încă o variabilă, am spune că cele două covariază dacă scorurile celei de-a doua se abat în acelaşi sens de la medie, chiar dacă magnitudinile abaterilor pot fi altele. +1,4 +0,4 +0,4 Var. X -0,6 -1,6 +0,8 +0,5 +2,3 Var Y -0,2 -0,6 Figura 1.1 – Diferenţele dintre scorul observat şi medie pentru două variabile, în cazul unui singur subiect examinat 15
  15. 15. Statistică aplicată în ştiinţele socio-umane Urmăriţi figura 1.1. Am reprezentat aici două variabile, variabila X şi variabila Y. Observăm că scorurile primei variabile se abat negativ faţă de medie în primele două cazuri şi pozitiv faţă de medie în ultimele trei cazuri. Acelaşi model este urmat şi de cea de-a doua variabilă, deşi magnitudinea abaterilor este diferită. Putem suspecta faptul că cele două variabile covariază, adică subiecţii care au scoruri mici la prima variabilă, au scoruri mici şi la a doua variabilă. Cei care au scoruri mari la prima variabilă, au scoruri mari şi la a doua variabilă. Acesta este principiul covarianţei. Problema care se pune este să stabilim magnitudinea acestei covarianţe, în acelaşi mod în care am aflat magnitudinea varianţei pentru fiecare variabilă luată separat. Cu alte cuvinte, se poate da un indicator unic, numeric, al covarianţei, în mod similar coeficientului de varianţă (s2)? Răspunsul este, din fericire, pozitiv. Vă aduceţi aminte că, în cazul calculării varianţei unei singure variabile, am ridicat la pătrat fiecare abatere de la medie, pentru a compensa problemele legate de semn. Este necesar să facem acest lucru şi aici? Gândiţi-vă înainte de a răspunde! Ei bine, nu. Fiind două variabile, înmulţind, pentru fiecare subiect, abaterile de la medie ale fiecărei variabile, rezolvăm această problemă. Dacă ambele abateri sunt ori pozitive, ori negative, vom obţine un produs pozitiv, arătând faptul că variabilele covariază în acelaşi sens (se abate pozitiv de la medie una, se abate pozitiv de la medie şi cealaltă; se abate negativ una, se abate negativ şi cealaltă). Dacă o abatere este pozitivă şi cealaltă este negativă, vom obţine un produs negativ, arătând faptul că variabilele covariază invers (dacă una se abate pozitiv de la medie, cealaltă se abate negativ). Mai simplu nici nu se putea. Cum obţinem însă o valoare numerică unică a acestor abateri? Nu este deloc complicat. Adunăm toate produsele şi împărţim la numărul de cazuri minus unu (efectuând corecția cunoscută pentru lucrul cu eșantioane). Iată ce greu e: 16
  16. 16. Cristian Opariuc-Dan ∑ ̅ ̅ (formula 1.1) Am obţinut, astfel, formula covarianţei pe care o putem acum aplica datelor noastre. Cele două variabile din exemplul de mai sus covariază pozitiv (adică dacă scorul la o variabilă se află peste medie, scorul la cealaltă variabilă se află şi el peste medie şi invers), valoarea acestei covariaţii fiind de 1,20. Marea problemă a covarianţei este aceea că relaţiile dintre cele două variabile depind de scala de măsură. Dacă avem două instrumente ce măsoară, fiecare, o singură variabilă, unul cu 100 de itemi şi unul cu 10 itemi, în condițiile în care itemii sunt cotați la fel, modul în care se vor abate scorurile individuale de la medie diferă extrem de mult, coeficientul de covarianţă fiind foarte mare în comparaţie cu situaţia analogă în care cele două instrumente ar avea, fiecare, 10 itemi. În realitate acest coeficient nu ne spune, practic, nimic. Avem nevoie, aşadar, de o măsură standardizată a covarianţei, iar această măsură o regăsim sub denumirea de corelaţie. Corelaţia exprimă, practic, sub formă numerică, gradul de asociere dintre variabile. Două variabile sunt asociate, în situaţia în care comportamentul uneia este legat de comportamentul celeilalte, cu alte cuvinte, dacă nu sunt independente. Două variabile independente arată că modificarea valorilor într-o variabilă nu are niciun efect asupra valorilor din cealaltă variabilă. (Gibbons, 1993). În teorie e simplu. În practica ştiinţifică din domeniul socio-uman, am arătat că variabilele pot fi dificil măsurate la un nivel de interval, majoritatea lor fiind, strict vorbind, la o scală de măsură ordinală. Este greu să găsim o 17
  17. 17. Statistică aplicată în ştiinţele socio-umane relaţie matematică între două variabile. Ar fi mai degrabă vorba de covarianţe decât de corelaţii. Un alt aspect important, pe care mulţi îl ignoră, este acela că nu putem stabili legături cauzale în urma studiilor corelaţionale. Din corelaţii nu se pot face inferenţe cauzale, nu putem stabili care este cauza şi care este efectul. Dacă în urma unui studiu ajungem la concluzia că există o legătură puternică între anxietate şi depresie, care este cauza şi care este efectul? Anxietatea determină depresia sau depresia produce anxietate? Studiile corelaţionale permit stabilirea intensităţii şi a sensului unei legături între variabile, nu şi stabilirea relaţiei cauză-efect. Accentuez asupra acestui aspect, deoarece am întâlnit multe asemenea confuzii în care se vorbea despre relaţii cauzale, fapt complet eronat din punct de vedere ştiinţific. Relaţiile dintre două variabile se studiază în baza a două categorii de indici de corelaţie. Vorbim de indici de corelaţie parametrici şi indici de corelaţie neparametrici, în funcţie de condiţiile îndeplinite de variabile – şi anume dacă îndeplinesc sau nu cerinţele de administrare ale statisticilor parametrice. I.1 Coeficienţi de corelaţie neparametrici Aceşti coeficienţi de corelaţie se utilizează în cazul în care cel puţin una dintre cele două variabile nu îndeplineşte condiţiile unei distribuţii normale, fie din cauza specificului datelor, fie din aceea a nivelului de măsură la care se situează. Numiţi şi coeficienţi de asociere pentru distribuţii libere, coeficienţii de corelaţie neparametrici pot fi folosiţi atât în cazul în care distribuţia este cunoscută, de obicei normală, dar mai ales în cazul în care distribuţia nu se cunoaşte, nu este normală sau datele nu pot fi asociate unui nivel de măsură cel puţin de interval. Motivul este acela că, datele aflate la un nivel de interval ori de raport, pot fi uşor convertite în ranguri sau în frecvenţe (la nivel ordinal ori nominal). Invers nu este, însă, posibil. 18
  18. 18. Cristian Opariuc-Dan În acest sens, există mai mulţi indici ai relaţiilor dintre variabile, utilizabili în funcţie de tipul variabilelor. I.1.1 Coeficientul de corelaţie a rangurilor ρ (rho) Spearman Este un coeficient bazat pe ranguri, nu este influenţat de reprezentativitatea mediei şi se utilizează, în general, Tabelul 1.1 – Rezultate obţinute atunci când lotul de cercetare are dimensiuni de 10 elevi la matematică şi fizică mici (sub 30 de cazuri), sau când cel puţin Nr. Matematică Fizică 1 2 3 una dintre variabile nu îndeplineşte condiţiile 2 3 4 de administrare ale testelor parametrice. A 3 4 4 fost dezvoltat de psihologul englez Charles 4 5 5 5 6 6 Spearman şi, datorită similarităţii sale cu coe6 6 7 ficientul r Bravais-Pearson, acest indicator 7 7 7 este frecvent utilizat în ştiinţele socio-umane. 8 8 7 9 9 8 De fiecare dată când aveţi de calculat coefici10 10 9 entul de corelaţie bivariată, iar datele dumneavoastră nu se distribuie normal pentru cel puţin una dintre variabile, apelaţi cu încredere la acest coeficient. Coeficientul nu face altceva decât să transforme scorurile originale în ranguri şi să analizeze relaţia dintre acestea. Formula de calcul nu este complicată şi poate fi rezumată la: ∑ (formula 1.2) unde d reprezintă diferenţa dintre rangurile valorilor măsurate la un subiect, iar n se referă la numărul de subiecţi Să considerăm un exemplu în care avem un număr de 10 elevi de clasa a XI-a care obţin următoarele rezultate la matematică şi la fizică (tabelul 1.1). 19
  19. 19. Statistică aplicată în ştiinţele socio-umane După cum observăm, cele două variabile se află la un nivel de măsură scalar, însă numărul mic de subiecţi (n=10) nu permite analiza distribuţiei rezultatelor, fiind sub 30 de cazuri. În această situaţie, nu putem folosi coeficienţi de corelaţie parametrici. Pentru a uşura lucrurile, notele la matematică şi la fizică au fost ordonate astfel încât să puteţi înţelege mai uşor algoritmul. Vom decide să folosim coeficientul de corelaţie a rangurilor ρ Spearman. Evident, primul pas este acela al calculării rangurilor. Nu intram în amănunte asupra acestei proceduri, deoarece a fost tratată în lucrarea anterioară, capitolul referitor la mediană şi ranguri. Nr. 1 2 3 4 5 6 7 8 9 10 Tabelul 1.2 – Calculul coeficientului de corelaţie ρ Spearman Matematică Fizică Rang Matematică Rang Fizică d 2 3 1 1 0 3 4 2 2,5 -0,5 4 4 3 2,5 0,5 5 5 4 4 0 6 6 5,5 5 0,5 6 7 5,5 6 -0,5 7 7 7 6 1 8 7 8 6 2 9 8 9 9 0 10 9 10 10 0 ∑d2 d2 0 0,25 0,25 0 0,25 0,25 1 4 0 0 6 După calculul rangurilor, facem diferenţa dintre rangul primei variabile (matematică) şi rangul celei de-a doua variabile (fizică). Valoarea d va fi, aşadar, d=RangMatematică – RangFizică. În următoarea etapă, ridicăm la pătrat diferenţa rangurilor, pentru a elimina problemele generate de semnul diferenţelor, şi facem suma pătratelor diferenţelor. Rezultatele acestor etape sunt prezentate în tabelul 1.2. Avem acum toate datele necesare înlocuirii în formulă. ∑ 20
  20. 20. Cristian Opariuc-Dan Iată şi coeficientul de corelaţie a rangurilor, în valoare de 0,96. Am obţinut o corelaţie pozitivă şi puternică între notele obţinute de către cei 10 elevi la matematică şi fizică. Putem spune că cei care obţin note mari la matematică, obţin note mari şi la fizică; cei cu note mici la matematică au note mici şi la fizică. Calculul după această formulă poate fi efectuat numai în situaţia în care nu există ranguri egale. Atunci când apar ranguri egale (cum se poate observa şi în cazul nostru), se foloseşte o formulă uşor diferită, formulă de corecţie pentru ranguri egale. Această formulă se aplică în cazul în care ambele variabile au ranguri egale, sau atunci când întâlnim ranguri egale doar în situația unei singure variabile. ) ∑ (∑ √ ∑ ∑ ∑ √ ∑ ∑ (formula 1.3) unde rx şi ry reprezintă rangurile celor două variabile Revenind la exemplul nostru, vom avea un alt tip de tabel, ceva mai complex. Nr. 1 2 3 4 5 6 7 8 9 10 Mate 2 3 4 5 6 6 7 8 9 10 Tabelul 1.3 – Calculul coeficientului de corelaţie ρ Spearman Fizică Rang Mate Rang Fizică RMxRF R M2 3 1 1 1 1 4 2 2,5 5 4 4 3 2,5 7,5 9 5 4 4 16 16 6 5,5 5 27,5 30,25 7 5,5 6 33 30,25 7 7 6 42 49 7 8 6 48 64 8 9 9 81 81 9 10 10 100 100 ∑=55 ∑=52 ∑=361 ∑=384,5 21 R F2 1 6,25 6,25 16 25 36 36 36 81 100 ∑=343,5
  21. 21. Statistică aplicată în ştiinţele socio-umane După calculul rangurilor, am efectuat produsul rangurilor şi ridicarea la pătrat a fiecărui rang. Apoi, am calculat sumele necesare. Nu rămâne, în final, decât înlocuirea în formulă. Rezultatul va fi, în acest caz, foarte apropiat cu cel de mai sus. Evident, numărul foarte mic de cazuri, face ca efectul corecţiei pentru ranguri egale să fie, și el, foarte mic. (∑ √ ∑ ) ∑ ∑ √ ∑ √ ∑ ∑ √ √ √ Acest coeficient de corelaţie, foarte uşor de calculat, are, însă, o problemă. Aţi observat că cele două variabile utilizate se situează la un nivel scalar de măsură. După unii autori (Vasilescu, 1992, apud Yule şi Kendall, 1969; Lohse, Kudwig şi Rohr, 1986), acest coeficient de corelaţie este inadecvat pentru ranguri, deoarece presupune că datele au, toate, proprietăţile necesare pentru calcularea coeficienţilor parametrici. Indicatorul reduce, de fapt, datele de la un nivel scalar la un nivel ordinal. În acest sens, mai adecvată ar fi calcularea altor coeficienţi, specifici pentru rang (Vasilescu, 1992). Totuşi, datorită uşurinţei calculării acestui coeficient şi a faptului că poate fi folosit pentru date parametrice care nu îndeplinesc condiţiile aplicării de teste parametrice, coeficientul ρ Spearman are o largă utilizare. În general, folosim acest coeficient de corelaţie atunci când ambele variabile se află la un nivel de măsură ordinal, când o variabilă se află la un nivel ordinal, iar cealaltă la un nivel scalar, ori când ambele se află la nivel scalar, dar cel puţin una dintre ele nu prezintă o distribuţie normală. I.1.1.1 Semnificaţia coeficientului de corelaţie ρ Spearman În cazul studiilor corelaţionale, şi nu numai, nu este suficientă obţinerea coeficientului de corelaţie pentru a respinge sau nu ipoteza nulă. Ştim foarte bine că avem nevoie şi de pragul de semnificaţie care ne arată, practic, 22
  22. 22. Cristian Opariuc-Dan ce şanse avem ca indicatorul obţinut să rezulte în urma unor erori de eşantionare. Putem accepta semnificaţia acestui indicator şi respinge ipoteza nulă, doar dacă această şansă este mai mică de 5%, cu alte cuvinte, dacă ne situăm la un prag de semnificaţie mai mic de 0,05. Cea mai simplă metodă de a determina semnificaţia coeficientului de corelaţie a rangurilor ρ este aceea în care putem compara valoarea acestuia cu valoarea de referinţă pentru nivelul de semnificaţie dorit, valoare publicată în tabele speciale. Stabilirea modului în care au fost construite aceste tabele nu face obiectul prezentei lucrări, deoarece calculele sunt mai complicate şi s-au realizat în decursul anilor pe eşantioane de diferite dimensiuni, folosindu-se distribuţii teoretice de probabilităţi. În anexa 1 am furnizat un asemenea tabel. Dacă reluăm exemplul nostru, am obţinut un coeficient de corelaţie a rangurilor de 0,96, studiind un lot de cercetare de 10 elevi. În prima coloană avem mărimea eşantionului. Dacă nu găsim numărul exact de cazuri, vom lua valoarea inferioară cea mai apropiată. În situaţia noastră, avem 10 subiecţi, iar rândul care ne interesează este al şaselea rând din acel tabel, unde avem numărul 10 pe coloana n. Observăm că pentru a fi semnificativ la un prag de semnificaţie mai mic de 0,05, coeficientul ρ trebuie să aibă cel puţin valoarea 0,64. Dacă dorim să fim mai riguroşi, la un prag de semnificaţie mai mic de 0,02, valoarea acestui coeficient trebuie să fie mai mare de 0,74 iar la un prag mai mic de 0,01, coeficientul trebuie să depăşească valoarea 0,794. Coeficientul nostru de corelaţie a rangurilor este de 0,96 şi constatăm că ne aflăm la un prag de semnificaţie mai mic de 0,01. Putem spune că există o legătură puternică între cele două variabile, la un prag de semnificaţie mai mic de 0,01. În condiţiile în care numărul de subiecţi este mai mare de 10, putem testa semnificaţia coeficientului de corelaţie a rangurilor ρ Spearman şi în alt mod, folosind distribuţia t, deoarece am arătat faptul că acest coeficient nu 23
  23. 23. Statistică aplicată în ştiinţele socio-umane este altceva decât o variantă ordinală a coeficientului r Bravais-Pearson, despre care vom discuta mai târziu. √ (formula 1.4) În situaţia noastră, am obţinut un coeficient de corelaţie a rangurilor ρ de 0,96 pentru un număr de 10 subiecţi. Valoarea testului t va fi: √ √ √ √ În tabelul din anexa 4 referitor la distribuţia t, vom căuta semnificaţia valorii testului t pentru un număr de 10-2=8 grade de libertate. La un număr de 8 grade de libertate, pentru a fi semnificativă corelaţia, valoarea testului t trebuie să depăşească 1,86 la un prag de semnificaţie mai mic de 0,05 şi 2,89 la un prag de semnificaţie mai mic de 0,01. Rezultatul obţinut, 9,60, este mai mare de 2,89, rezultând că acest coeficient de corelaţie ρ = 0,96 este semnificativ la un prag de semnificaţie p < 0,01. O altă variantă prin care putem testa semnificaţia acestui coeficient de corelaţie, are în vedere faptul că pentru eşantioane mari, distribuţia se apropie de o distribuţie normală şi putem calcula statistica z, după formula: √ (formula 1.5) În situaţia noastră, statistica z va fi 2,88. Raportat la distribuţia z, coeficientul arată o valoare puternic semnificativă a corelaţiei, la un prag de semnificaţie mai mic de 0,01. √ √ Coeficientul de corelaţie a rangurilor ρ Spearman este un coeficient de corelaţie direcţional şi poate avea valori cuprinse între -1 şi +1. Valorile apropiate de +1 indică existenţa unei asocieri directe (pozitive) între cele do24
  24. 24. Cristian Opariuc-Dan uă variabile, în timp ce valorile apropiate de -1 indică existenţa unei asocieri inverse (negative). Cu cât valorile se apropie mai mult de 1 (indiferent de semn), cu atât asocierea este mai puternică, variabilele fiind mai „legate” între ele.  Un coeficient de corelaţie care are exact valoarea +1 arată că în cele două variabile există exact aceleaşi ranguri ale scorurilor. Dacă Ionel obţine rangul 5 la matematică, obţine tot rangul 5 şi la fizică; Viorel are rangul 7 la matematică şi rangul 7 la fizică; Viorica are rangul 3 la matematică şi rangul 3 la fizică şi aşa mai departe.  Un coeficient de corelaţie care are exact valoarea -1 arată că rangurile dintr-o variabilă sunt inversul perfect al rangurilor din cealaltă variabilă. Dacă Dan are rangul 8 la matematică, are rangul 3 la fizică; Mioara are rangul 6 la matematică şi rangul 4 la fizică; Costel are rangul 9 la matematică şi rangul 2 la fizică.  Un coeficient de corelaţie cu valoarea 0 semnifică lipsa oricărei legături între cele două variabile şi spunem că cele două variabile sunt necorelate liniar între ele. În practică nu găsim aproape niciodată aceste extreme (-1; 0; +1), decât în cazul în care copiem, pur şi simplu, datele dintr-o variabilă într-o altă variabilă şi apoi calculăm coeficientul de corelaţie, ceea ce, fiind vorba între noi, s-a mai văzut pe la unii studenţi în lucrările lor „ştiinţifice”. Cu cât valorile coeficientului de corelaţie se apropie mai mult de zero, cu atât variabilele sunt necorelate, fără legătură între ele; cu cât sunt mai apropiate de 1, cu atât sunt mai asociate, mai strâns legate, au elemente comune. Între aceste două extreme, independenţă şi covarianţă, se situează întreaga filozofie şi întreaga putere a coeficienţilor de corelaţie. 25
  25. 25. Statistică aplicată în ştiinţele socio-umane Există o legătură logică între mărimea coeficientului ce corelaţie şi semnificaţia acestuia. Nu trebuie demonstrat faptul că în cazul în care coeficienţii de corelaţie se apropie de valoarea ±1, deci variabilele sunt puternic asociate, această asociere este şi semnificativă, pragul de semnificaţie apropiindu-se de zero, în timp ce la apropierea coeficientului de corelaţie de valoarea zero, pragul de semnificaţie se apropie şi el de 1, legătura nefiind semnificativă. Am făcut aceste precizări în cadrul primului coeficient de corelaţie studiat, coeficientul de corelaţie ρ Spearman. Informaţiile prezentate mai sus se aplică tuturor coeficienţilor direcţionali, astfel încât nu le vom mai repeta în cazul altor coeficienţi de corelaţie, ci ne vom axa doar asupra posibilelor completări şi proceduri speciale de calcul. Un ultim aspect care merită a fi menţionat: coeficientul de corelaţie al rangurilor ρ Spearman este, alături de marea majoritate a coeficienţilor de acest tip, adimensional şi situat la un nivel ordinal. Adică nu are o unitate de măsură şi permite comparaţii directe. Putem compara un coeficient ρ cu un alt coeficient de corelaţie, putem lucra cu mediana coeficienţilor de corelaţie, etc. Bineînţeles, fiind situat la un nivel de măsură ordinal, nu putem calcula statistici metrice, nu putem vorbi de media coeficienţilor de corelaţie. I.1.2 Coeficientul de corelaţie a rangurilor τ (tau) Kendall Tabelul 1.4 – Rezultate obţinute de 4 elevi la română şi chimie Nr. Română Chimie 1 Satisfăcător Nesatisfăcător (2) (1) 2 Bine Foarte bine (3) (4) 3 Nesatisfăcător Bine (1) (3) 4 Foarte bine Satisfăcător (4) (2) Este un alt coeficient de corelaţie pentru date neparametrice, dezvoltat de statisticianul englez Maurice Kendall în anul 1938, fiind mai precis decât ρ Spearman în cazul variabilelor ce se situează într-un mod real la un nivel pur ordinal. Procedurile de calcul ale acestui coeficient diferă între ele, însă toate se 26
  26. 26. Cristian Opariuc-Dan bazează pe numărarea inversiunilor (cazul în care un element care are un rang mai mare pentru o variabilă, se situează în faţa unui element cu un rang mai mic, datele fiind ordonate după cealaltă variabilă) şi a opusului acestora, numit şi proversiuni (Vasilescu, 1992). Ca să înţelegem mai bine cum stau lucrurile, să luăm un exemplu. Să presupunem că într-o clasă au fost evaluaţi un număr de patru elevi la limba română şi la chimie, obţinându-se rezultatele din tabelul 1.4. Aceste date nu pot fi asociate unor date la un nivel scalar, fiind în mod cert date ordinale. Dacă notăm calificativul nesatisfăcător cu 1, satisfăcător cu 2, bine cu 3, foarte bine cu 4 şi excepţional cu 5, putem obţine expresia numerică a acestor evaluări. Vă reamintesc faptul că aceste cifre nu reprezintă decât nişte coduri asociate calificativelor şi nu au valoare în sine. La acest nivel putem doar ordona elevii în funcţie de calificative (de la nesatisfăcător la excepţional) şi nu putem preciza cu cât un elev este mai bun decât celălalt (vezi referinţele la scale de măsură din lucrarea anterioară). Calcularea numărului de inversiuni se face prin ordonarea datelor după prima variabilă. Ordonând datele, tabelul se prezintă în felul următor (tabelul 1.5). Tabelul 1.5 – Ordonarea după variabila Română Inversiunile vor fi calculate în baNr. Română Chimie Nesatisfăcător Bine za celei de-a doua variabile (chimie) 3 (1) (3) urmărindu-se, pe rând, ordinea naturală a Satisfăcător Nesatisfăcător 1 rangurilor. Pentru prima linie, subiectul (2) (1) Bine Foarte bine are rangul 3 la chimie. Acest rang este 2 (3) (4) mai mare decât rangul la chimie pentru a Foarte bine Satisfăcător 4 (4) (2) doua linie (1), deci avem de-a face cu o inversiune. Prima inversiune găsită este (3 – 1). Comparând prima linie cu a treia (rangul 3 cu rangul 4, tot pe coloana „chimie”), observăm că cele două ranguri sunt în ordine naturală, deci nu apare o inversiune în acest caz. O altă inversiune apare la compararea primei linii cu ultima (inversiunea 3 – 2). 27
  27. 27. Statistică aplicată în ştiinţele socio-umane A doua linie nu presupune inversiuni, toate comparaţiile fiind în ordinea naturală (atât comparaţia rangului 1 cu rangului 4 cât şi comparaţia rangului 1 cu rangului 2), lucru evident, deoarece rangul acestei linii este 1 şi nu există nici un rang mai mic decât 1. A treia linie presupune compararea rangului 4 cu rangul 2 (liniile 3 şi 4). Observăm, în sfârşit, o ultimă inversiune sub forma perechii 4 – 2. Aşadar, în şirul determinat de variabila „chimie”, avem un număr de 3 inversiuni (perechile 3 – 1, 3 – 2 şi 4 – 2) şi un număr de 3 proversiuni (perechile 3 – 4, 1 – 4 şi 1 – 2). Calculul coeficientului τ Kendall se face diferit, în funcţie de existenţa sau inexistenţa elementelor cu acelaşi rang. În cazul nostru, observăm că nu există elemente cu acelaşi rang, situaţie în care putem aplica prima formulă de calcul a coeficientului τ Kendall: (formula 1.6) unde I reprezintă numărul de inversiuni, iar n numărul de subiecţi Înlocuind în formula noastră, unde au fost 3 inversiuni şi 4 subiecţi, obţinem următorul coeficient de corelaţie a rangurilor: Tabelul 1.6 – Ordonarea după variabila Română Nr. Română Chimie 1 Nesatisfăcător Bine (1) (3) 2 Satisfăcător Nesatisfăcător (2) (1) 3 Bine Foarte bine (3) (4,5) 4 Foarte bine Satisfăcător (4) (2) 5 Excepţional Foarte bine (5) (4,5) Iată o primă situaţie în care nu există nici o legătură între cele două variabile. Acest lucru se datorează, evident, numărului extrem de mic de subiecţi luaţi în calcul, faptului că informaţia este insuficientă pentru a ne permite formularea unor concluzii utile. Acest coeficient de corelaţie se mai numeşte coeficientul de corelaţie τa. Există şi alte variante ale acestui coeficient, având exact aceeaşi semnificaţie, (τb şi τc), 28
  28. 28. Cristian Opariuc-Dan pe care nu le vom discuta aici. Menţionăm numai ca τb se foloseşte în cazul variabilelor cu un număr egal de modalităţi de realizare (tabele pătratice), iar τc se foloseşte în cazul variabilelor cu un număr inegal de modalităţi de realizare (tabele rectangulare). Dacă există elemente cu acelaşi rang în cazul celei de-a doua variabile, lucrurile se complică puţin. Vom relua exemplul anterior pentru 5 subiecţi, la aceleaşi discipline (tabelul 1.6). Observăm că în cazul primei variabile nu avem ranguri care se repetă, în timp ce pentru variabila chimie avem două cazuri în care se repetă calificativul foarte bine. În aceste situaţii, ordonăm datele după variabila care nu are elemente cu acelaşi rang – în cazul nostru, după variabila română. Ştim că dacă două sau mai multe elemente ocupă aceeaşi poziţie, rangul lor devine media poziţiilor pe care se află. Cele două elemente cu calificativul foarte bine ocupă poziţiile 4 şi 5, rangul lor fiind acelaşi, 4,5. Aceste elemente poartă numele de ambiversiuni şi reprezintă un nou concept în calculul coeficientului de corelaţie, alături de inversiuni şi proversiuni. În condiţiile în care nu sunt elemente cu ranguri egale, atunci putem spune că numărul inversiunilor şi cel al proversiunilor este egal cu suma primelor n-1 numere naturale. Adică . Din acest lucru putem de- duce un alt element, numit suma lui Kendall şi notat cu S. Suma lui Kendall se defineşte după formula . Dacă nu ar exista inversiuni, adică I=0, atunci s-ar obţine valoarea maximă a acestei sume, astfel încât În baza acestor sume, formula generalizată a coeficientului de corelaţie a rangurilor τ Kendall devine: (formula 1.7) 29
  29. 29. Statistică aplicată în ştiinţele socio-umane Practic nu am făcut decât să generalizăm formula anterioară de calcul a acestui coeficient, pentru a include un alt element şi anume cel de corecţie a ambiversiunilor. Dacă apar ambiversiuni, suma maximă se reduce cu acest element de corecţie, după formula următoare: ∑ (formula 1.8) unde fp este numărul de asocieri de p elemente şi p se referă la numărul elementelor. În exemplul nostru, avem o singură pereche de elemente, şi anume cele cu rangurile 4,5. Astfel, valoarea A devine . Pentru o clarificare mai bună a modalităţii de calcul al acestui element, să luăm un alt exemplu de ranguri: Note: 2; 3; 5; 5; 5; 6; 7; 7; 8; 9; 10; 10; 11; 12 Poziţie: 1; 2; 3; 4; 5; 6; 7; 8; 9; 10; 11; 12; 13; 14 Rang 1; 2; 4; 4; 4; 6; 7,5; 7,5, 9; 10; 11,5; 11,5; 13; 14 Observăm că avem două perechi de elemente (7 cu rangurile 7,5 şi 10 cu rangurile 11,5) şi o asociere cu 3 elemente (5 cu rangurile 4). Aplicând formula pentru ambiversiune, obţinem ( ) ( ) . Existenţa acestor ambiversiuni reduce atât numărul maxim de legături ierarhice, cât şi suma lui Kendall, cu valoarea inversiunilor (Vasilescu, 1992). Astfel, şi, de asemenea, ( ) . Cu- noscând acum aceste date şi formula generalizată pentru coeficientul τ Kendall de corelaţie a rangurilor, putem deduce cu uşurinţă noua formulă pentru cazul în care una dintre variabile are elemente de acelaşi rang. 30
  30. 30. Cristian Opariuc-Dan ( ) (formula 1.9) Reluând exemplul de mai sus, avem un număr de 3 inversiuni (3 – 1; 3 – 2; 4,5 – 2) şi o ambiversiune (4,5 – 4,5). Toate datele sunt cunoscute şi nu ne rămâne decât să înlocuim în formulă, obţinând coeficientul τ Kendall de 0,55. Tabelul 1.7 – Calificativele obţinute la limba română şi la chimie Nr. Română Chimie 1 Satisfăcător Bine (2) (3) 2 Satisfăcător Nesatisfăcător (2) (1) 3 Bine Bine (3) (3) 4 Foarte bine Satisfăcător (4) (2) 5 Excepţional Foarte bine (5) (4) 6 Foarte bine Bine (4) (3) 7 Nesatisfăcător Satisfăcător (1) (2) 8 Bine Foarte bine (3) (4) √( )( Deşi este puţin mai complicat şi presupune calculul unui indicator suplimentar, algoritmul nu pune probleme deosebite. Să vedem în continuare modul de calcul al acestui coeficient în condiţiile în care ambele variabile au elemente de acelaşi rang. De data aceasta, algoritmul implică mai multe etape, deoarece avem ambiversiuni atât în cazul primei variabile, cât şi în cazul celei de-a doua variabile. Suma Kendall va deveni iar suma maximă se calculează în baza formulei ), unde Ax şi Ay sunt ambiversiunile din cele două variabile, iar S- şi S+ sunt sumele calculate numai din rangurile ce- 31
  31. 31. Statistică aplicată în ştiinţele socio-umane lei de-a doua variabile. Nu va speriaţi. Clarificăm imediat aceste concepte abstracte. Având în vedere formula generalizată pentru coeficientul de corelaţie τ Kendall şi cunoscând sumele, putem da expresia formulei de calcul a coeficientului, în condiţiile în care găsim ambiversiuni atât în prima, cât şi în a doua variabilă: √( (formula 1.10) )( ) Pentru a nu intra în detalii teoretice inutile, să considerăm că un număr de 8 elevi au obţinut următoarele calificative la limba română şi la chimie (tabelul 1.7). Datele din tabelul 1.7 nu sunt ordonate după nicio variabilă şi putem observa cu uşurinţă că atât calificativele la limba română, cât şi cele de la chimie, vor conţine elemente cu ranguri egale. Pentru a calcula S+, se ordonează crescător elementele după prima variabilă (română). În cazul în care întâlnim ranguri egale ale primei variabile (română), elementele vor fi aranjate crescător, în funcţie de a doua variabilă (chimie). Obţinem, astfel, un nou şir numit în termeni de specialitate Y+, pe baza căruia calculăm ambiversiunile Ay şi inversiunile, după care putem afla suma S+, în mod similar sumei prezentate în capitolul anterior. Vom rearanja tabelul de mai sus pentru a putea calcula mai uşor aceste elemente. Tabelul 1.8 – Rearanjarea rangurilor în vederea calculului S+ Număr elev 7 2 1 3 8 4 6 Calificativ română 1 NS 2S 2S 3B 3B 4 FB 4 FB Poziţie 1 2 3 4 5 6 7 Rang română 1 2,5 2,5 4,5 4,5 6,5 6,5 Calificativ chimie 2S 1 NS 3B 3B 4 FB 2S 3B Rang chimie 2,5 1 5 5 7,5 2,5 5 32 5 5E 8 8 4 FB 7,5
  32. 32. Cristian Opariuc-Dan Suma S+ se va calcula ţinând cont doar de rangurile celei de-a doua variabile, în cazul nostru, chimia. Din tabelul 1.8 observăm că apare de două ori rangul 2,5, de trei ori rangul 5 şi de 2 ori rangul 7,5. Numărul de legături ∑ ambiverte (Ay) va fi, prin urmare, ( ) ( ) , deoarece avem două legături cu 2 elemente şi o singură legătură cu 3 elemente. Perechile de inversiuni în variabila chimie vor fi (2,5 – 1), (5 – 2,5), (5 – 2,5), (7,5 – 2,5), (7,5 – 5), (5 – 7,5), vorbind, astfel, de un număr de 6 inversiuni. Cu toate aceste elemente putem acum calcula suma S+, aplicând formula de mai sus şi obţinem valoarea 11. ( ) ( ) Tabelul 1.9 – Rearanjarea rangurilor în vederea calculului SNumăr elev 7 1 2 8 3 6 7 Calificativ română 1 NS 2S 2S 3B 3B 4 FB 4 FB Poziţie 1 2 3 4 5 6 7 Rang română 1 2,5 2,5 4,5 4,5 6,5 6,5 Calificativ chimie 2S 3B 1 NS 4 FB 3B 3B 2S Rang chimie 2,5 5 1 7,5 5 5 2,5 5 5E 8 8 4 FB 7,5 Calcului sumei S- se face în mod similar, singura diferenţă este că la ranguri egale ale primei variabile, elementele celei de-a doua variabile se ordonează descrescător, obţinându-se şirul Y-, restul algoritmului rămânând neschimbat. Fiind acelaşi număr de ranguri egale în cea de-a doua variabilă, indicele legăturilor ambiverte nu se schimbă. Se modifică doar numărul de inversiuni în acest caz, astfel (2,5 – 1), (5 – 1), (5 – 2,5), (7,5 – 5), (7,5 – 5), (7,5 – 2,5), (5 – 2,5), (5 – 2,5), rezultând un număr de 8 inversiuni. Înlocuind în formulă, vom avea S- în valoare de 7. 33
  33. 33. Statistică aplicată în ştiinţele socio-umane ( ) ( ) Având valorile pentru S+ şi S-, putem acum calcula suma lui Kendall Pentru a putea calcula Smax ,va trebui să aflăm doar numărul de legături ambiverte din prima variabilă (Ax), în cazul nostru limba română. Avem trei legături de câte 2 elemente, 2,5 4,5 şi 6,5. Ştim acum formula de calcul şi ∑ putem afla uşor această valoare. ( ) Nu ne rămâne decât să completăm formula de calcul şi obţinem valoarea 23,97. √( )( √ ) √( )( ) √ Coeficientul de corelaţie τ Kendall, în acest caz ca raport al celor două sume, devine . Se pare că v-aţi obişnuit cu mai puţine calcule în lucrarea anterioară. Aceasta este situaţia. În definitiv, am trecut la stabilirea relaţiilor dintre variabile, nu mai lucrăm cu una, ci cu două variabile în acelaşi timp şi este normal să se complice puţin şi calculele. Din fericire, aveţi ceva mai mult de adunat, scăzut sau înmulţit iar formulele vă pot speria doar la prima vedere. În definitiv, algoritmii de calcul sunt destul de simpli. Singura problemă este aceea că la un număr mare de subiecţi trebuie să fiţi extrem de atenţi, altfel vă puteţi încurca uşor. Bine că avem, însă, computerele care ne scot din impas. Imaginaţi-vă doar cum lucrau cercetătorii prin anii `30 ai secolului XX şi veţi putea înţelege ce norocoşi suntem noi acum. 34
  34. 34. Cristian Opariuc-Dan Acest coeficient de corelaţie se poate utiliza în condiţiile în care ambele variabile sunt ordinale sau o variabilă este ordinală, iar cealaltă este scalară. I.1.2.1 Semnificaţia coeficientului τ Kendall Care este semnificaţia coeficientului de corelaţie τ Kendall? Deoarece acest coeficient se bazează practic pe numărarea perechilor diferite provenite din două şiruri ordonate de date, ea nu reprezintă altceva decât o diferenţă dintre probabilitatea elementelor de a fi în aceeaşi ordine şi probabilitatea elementelor de a fi într-o altă ordine (Kenny, 1987). Coeficientul τ Kendall este un coeficient direcţional, având aceeaşi semnificaţie interpretativă ca şi coeficientul ρ Spearman. În anexa 2 am furnizat tabelele de referinţă ale valorilor acestui coeficient pentru diferite praguri de semnificaţie. Deoarece la valori mari ale numărului de subiecţi, distribuţia τ Kendall se apropie de distribuţia normală, este posibil, atunci când numărul de subiecţi este mai mare de 30, să se calculeze statistica z pentru coeficientul de corelaţie τ Kendall, după formula următoare: (formula 1.11) √ Dacă am obţine un coeficient de corelaţie τ Kendall de 0,42 pe un număr de 34 de subiecţi, atunci statistica z a acestui coeficient devine 5,25, valoare puternic semnificativă ce indică legătura dintre cele două variabile analizate. √ √ √ √ 35
  35. 35. Statistică aplicată în ştiinţele socio-umane Statistica z a coeficientului de corelaţie τ Kendall se raportează la distribuţia z, pe baza tabelelor de distribuţie z prezentate în anexa 8. I.1.3 Coeficientul de contingenţă χ2 (chi pătrat) Este greu de definit χ2. A fost conceput de Pearson şi putem afirma, fără să ne înşelăm prea tare, că statisticile neparametrice încep şi se termină cu χ2, atât de mare este importanţa acestui indicator utilizat în studii corelaţionale şi factoriale cu date nominale. Rolul său este esenţial în analiza datelor nominale, coeficientul putând fi folosit în stabilirea relaţiilor dintre două variabile dihotomice, ale unei variabile dihotomice cu una nominală, şi ale celor în care intervin o variabilă nominală şi una ordinală, sau o variabilă nominală şi una scalară. Practic, atunci când avem de a face cu o variabilă nominală, cel mai pertinent indicator este acest χ2. χ2 este un coeficient de asociere între două variabile nominale. El măsoară gradul de contingență al celor două variabile, verificând dacă sunt sau nu sunt asociate în vreun fel. În realitate, acest coeficient pare mai degrabă un test statistic decât un indicator al gradului de asociere. Spre exemplu, avem o cercetare în care dorim să stabilim în ce măsură se asociază genul biologic al unor subiecţi şi calitatea de fumător. Suntem în situaţia unei variabile nominale şi a unei variabile dihotomice. În acest caz vom utiliza aşa-numitele tabele de contingenţă, pe baza cărora vom calcula χ2. Tabelul 1.10 – Tabelul de contingenţă cu frecvenţele estimate pentru χ2 Calitate fumător Da Nu 35 64 Bărbaţi Bărbaţi (27,87) (71,12) 99 Gen biologic 23 84 Femei Femei (30,12) (76,87) 107 Fumători Nefumători Total 58 148 206 36
  36. 36. Cristian Opariuc-Dan La această cercetare au participat un număr de 206 persoane, 99 bărbaţi şi 107 femei. Dintre aceştia, 58 sunt fumători, iar 148 nefumători. Ipoteza nulă de la care pleacă χ2 este aceea conform căreia nu există nicio asociere între aceste două variabile. Cu alte cuvinte, frecvenţele de apariţie ale cazurilor nu sunt diferite de situaţia în care toate cele patru variante ar avea o frecvenţă de apariţie teoretică (frecvența corespunzătoare situației în care cele două variabile ar fi independente). Datorită acestui fapt, atunci când lucrăm cu χ2, ne putem exprima în frecvenţe relative sau în frecvenţe absolute. Ideea testului χ2 este aceea a comparării acestor frecvenţe observate cu situaţia în care celulele ar avea frecvenţele teoretice estimate, prin frecvențe teoretice estimate înțelegând frecvențele pentru cazul în care cele două variabile ar fi independente. Dacă diferenţele între frecvenţele observate şi cele estimate (teoretice) sunt mari, atunci vorbim de un χ2 semnificativ, fapt care indică existenţa unei asocieri între cele două variabile. Dar cum se obţine practic acest lucru? Primul pas este acela al calculării frecvenţelor estimate pentru fiecare dintre cele patru celule care ne interesează. Acest lucru se face foarte simplu pe baza formulei: (formula 1.12) Pentru prima coloană (bărbaţi fumători) vom avea o frecvenţă estimată de . Pentru bărbaţi nefumători avem , pentru femeile fumătoare frecvenţa aşteptată devine , iar pentru femeile nefumătoare vom avea . Odată stabilite frecvenţele teoretice (estimate), urmează calcularea coeficientului χ2. La acest nivel putem distinge două situaţii.  În cazul în care cel puţin una dintre cele două variabile are mai mult de două categorii (de exemplu o variabilă de tipul ocupa37
  37. 37. Statistică aplicată în ştiinţele socio-umane ţiei cu variantele muncitor, maistru şi inginer), se aplică formula generală a coeficientului χ2. ∑  (formula 1.13) Dacă cele două variabile au exact câte două categorii fiecare, atunci se aplică o formulă de corecţie pentru continuitate. ∑ | | (formula 1.14) Noi ne aflăm în cea de-a doua situaţie, astfel încât vom aplica, pentru fiecare dintre cele patru celule, formula corectată şi vom obţine valoarea 4,2 pentru coeficientul de contingenţă χ2. ∑ | | | | | | | | | | Ce facem acum cu acest coeficient obţinut? Va trebui să-l verificăm la un prag de semnificaţie stabilit, pentru a vedea dacă putem sau nu respinge ipoteza nulă. Dar înainte de aceasta vom stabili gradele de libertate. Ştiu că nu aveţi o idee prea clară referitoare la acest concept. Aveţi răbdare, o vom discuta imediat. În cazul nostru, gradele de libertate se calculează înmulţind numărul categoriilor fiecărei variabile din care se scade unu. Adică, df=(CatX-1)(CatY-1). Noi avem două variabile cu două categorii şi rezultă (21)(2-1)=1 grad de libertate. În acest moment avem toate informaţiile pentru a stabili dacă acest coeficient de contingenţă este sau nu este semnificativ. 38
  38. 38. Cristian Opariuc-Dan Coeficientul de contingenţă χ2, după cum aţi putut constata, este simplu de înţeles şi de calculat. De aceea, voi „risca” să abordez, în cele ce urmează, o perspectivă ceva mai „matematizată” asupra datelor neparametrice, deoarece un stil asemănător îl puteţi întâlni în cele mai multe lucrări din acest domeniu. Tabelele de contingenţă (asociere) sunt intens folosite atunci când lucrăm cu date discrete. În momentul în care reprezentăm, folosind un asemenea tabel, doar două variabile, vorbim de tabele de contingenţă bidimensionale, deoarece există posibilitatea reprezentării mai multor variabile în acelaşi tabel, caz în care ne vom referi la tabele de contingenţă multidimensionale. În tabelul 1.11 v-am furnizat reprezentarea generală a unui tabel de contingenţă bidimensional. Putem observa că variabila X are un număr de i categorii (unde, spre exemplu, i poate fi 2, în cazul variabilei sex – masculin şi feminin, ori 4 în cazul culorii ochilor – albastru, verde, negru, căprui), iar variabila Y are un număr de j categorii. Prin însumarea datelor, la nivelul fiecărei categorii, obţinem un nou tip de rubrică, numită secţiunea datelor marginale. Coloana „Total X”, respectiv linia „Total Y” se referă exact la acest tip de date. Tabelul 1.11 – Reprezentarea generală a unui tabel de contingenţă bidimensional Categorie 1 Categorie 2 Variabila X . . Categorie i Total Y Categorie 1 n11 e11 n21 e21 . . ni1 ei1 ∑nY1 ∑eY1 Variabila Y Categorie 2 … Categorie j n12 … n1j e12 … e1j n22 … n2j e22 … e2j . … . . … . ni2 … nij ei2 … eij ∑nY2 … ∑nYj ∑eY2 … ∑eYj 39 Total X ∑nX1 ∑eX1 ∑nX2 ∑eX1 . . ∑nXi ∑eX1 n e
  39. 39. Statistică aplicată în ştiinţele socio-umane Numărul de cazuri din fiecare categorie îl notăm, aşa cum ştim deja, cu litera n, căreia i se adaugă indici arătând numărul liniei și numărul coloanei. Astfel, subiecţii din categoria 1 pentru variabila X şi categoria 1 pentru variabila Y, se notează cu n11 (spre exemplu, bărbaţii cu ochi albaştri). Subiecţii din categoria 2 pentru variabila X şi din categoria 1 pentru variabila Y se notează cu n21 (de exemplu femeile cu ochi albaştri) şi aşa mai departe. Generalizând parţial, vom spune că subiecţii din categoria 1 pentru variabila X şi din categoria j pentru variabila Y se notează n1j; similar, subiecţii din categoria 1 pentru variabila Y şi din categoria i pentru variabila X se notează ni1. Înţelegând acest stil de notare, vom spune că numărul de subiecţi din categoria i în cazul variabilei X şi din categoria j în cazul variabilei Y se poate nota nij. Rezultatele marginale urmează aceeaşi logică. Toţi subiecţii aflaţi în categoria 1 a variabilei X sunt reprezentaţi de ∑nX1 (de exemplu, toţi bărbaţii, indiferent de culoarea ochilor). Toţi subiecţii aflaţi în categoria 1 a variabilei Y sunt reprezentaţi de ∑nY1 (de exemplu, toţi subiecţii cu ochi albaştri, indiferent de sex). În general, toţi subiecţii din categoria i a unei variabile şi din categoria j a celeilalte variabile sunt reprezentaţi de ∑nij. Referindu-de strict la χ2, putem raţiona în acelaşi mod atunci când vorbim despre frecvenţele estimate, notate în cazul nostru cu e. Nu vom detalia raţionamentul, vă lăsăm pe dumneavoastră să o faceţi. Cunoscând toate aceste date, să revedem formula pentru χ2, în condiţii de maximă generalitate. Vă reamintim formula iniţială, apoi vom proceda la deducerea noii formule. ∑ ∑ ∑ 40 (formula 1.15)
  40. 40. Cristian Opariuc-Dan Nu s-a schimbat nimic în logica aplicării formulei. S-a schimbat doar notaţia şi modul în care s-au abstractizat conceptele. Formula 1.15 este valabilă doar dacă cel puțin una dintre variabile are mai mult de două categorii. Desigur, intuiesc întrebarea care vă vine în minte în acest moment. Probabil că vă gândiţi la ce foloseşte complicarea lucrurilor. Nu era suficientă o singură formulă? Nu ajunge prezentarea modalităţii efective de calcul? De ce avem nevoie de formule generalizate şi alte asemenea lucruri care ţin mai mult de o abordare matematică? Răspunsul comportă o serie de aspecte. În primul rând, formule de acest tip, şi altele, mult mai complexe, găsiţi în lucrări de specialitate, comunicări ştiinţifice şi articole. Este bine să le puteţi înţelege şi să puteţi lucra cu ele. În al doilea rând, cel mai probabil că în carieră veţi fi pus în situaţia de a redacta un articol ştiinţific. Normele de acceptare şi de publicare ale unor asemenea lucrări impun prezentarea formulelor generalizate, folosindu-se notaţii universale. În al treilea rând, vă dezvoltaţi, pas cu pas, gândirea matematică şi vă familiarizaţi cu limbajul. Vrem nu vrem, statistica este totuşi o ramură a matematicii, iar noi nu putem face abstracţie de acest lucru. I.1.3.1 Semnificaţia coeficientului de contingenţă χ2 Acest coeficient este unul nedirecţional şi dimensional; nu putem compara acest coeficient cu alţi coeficienţi de asociere. Această ultimă situaţie creează probleme în interpretare, probleme legate de magnitudinea asocierii dintre cele două variabile. După stabilirea gradelor de libertate, comparăm coeficientul obţinut cu valoarea de referinţă a distribuţiei χ2 pentru numărul de grade de libertate găsit. Tabelul distribuţiei χ2 pentru diferite grade de libertate este prezentat în anexa 3. În cazul nostru, avem o valoare χ2 de 4,2 la un număr de 1 grade de libertate. Parcurgând prima linie, corespunzătoare unui singur grad de libertate, 41
  41. 41. Statistică aplicată în ştiinţele socio-umane observăm că acest coeficient este semnificativ la un prag de semnificaţie mai mic de 0,05, deoarece valoarea este mai mare de 3,84146, valoarea de referinţă pentru acest prag. Coeficientul nu este semnificativ la un prag de semnificaţie mai mic de 0,02 sau mai mic de 0,01, deoarece 4,2, pe care l-am obţinut, este mai mic decât valoarea de referinţă pentru pragul de semnificaţie 0,02 sau 0,01 (5,02389, respectiv 6,63490). Nu putem deocamdată spune care este intensitatea, magnitudinea acestei asocieri, din motivele expuse mai sus. Coeficientul de contingenţă χ2 permite doar identificarea unei contingenţe între variabile. Nu putem fi siguri, însă, de intensitatea acesteia. Observăm că acest coeficient este sensibil la mărimea lotului de cercetare. Dacă lotul de cercetare este prea mic, χ2 va fi supraestimat; dacă lotul de cercetare este prea mare, χ2 poate fi subestimat. Va fi necesară, aşadar, găsirea unei soluţii de standardizare, soluţie prin care să evităm aceste supra sau subestimări şi să găsim magnitudinea contingenţei. Pentru a se elimina aceste dezavantaje, au fost calculaţi alţi coeficienţi derivaţi din χ2, şi anume coeficientul de asociere φ, coeficientul V Cramer, coeficientul de contingenţă (cc) şi alţii. I.1.4 Coeficientul de asociere φ (phi), coeficientul V Cramer şi coeficientul de contingenţă (cc), derivaţi din χ2 Coeficientul de asociere φ este un coeficient foarte simplu, derivat din χ şi se calculează pentru două variabile dihotomice, care înregistrează, în special, prezenţa sau absenţa unei caracteristici. Dacă ne interesează relaţia dintre ochii albaştri şi părul blond, vom putea concepe două variabile prin care să stocăm prezenţa şi absenţa ochilor albaştri, respectiv prezenţa şi absenţa părului blond. Evident, ambele variabile sunt la un nivel nominal de măsură, şi se bazează pe un tip special de distribuţie discretă, astfel încât coeficientul φ este un coeficient ce lucrează cu frecvenţe absolute sau relative. 2 La modul general, tabelul de lucru se prezintă sub forma unei structuri cu 4 celule. 42
  42. 42. Cristian Opariuc-Dan Tabelul 1.12 – Schema generală de calcul a coeficientului φ Variabila X Absenţă X Prezenţă X Absent X Prezent X Prezenţă Y Prezent Y Prezent Y Variabila Y Prezent X Absent X Absenţă Y Absent Y Absent Y În calculul acestui coeficient suntem interesaţi doar de câteva cazuri: cazul în care sunt prezente caracteristicile pentru ambele variabile (celula Prezent X şi Prezent Y), cazul în care este prezentă doar variabila X (suma celulelor Prezent X, Prezent Y şi Prezent X, Absent Y) şi cazul în care este prezentă doar variabila Y (suma celulelor Prezent X, Prezent Y şi Absent X, Prezent Y). Formula de calcul a acestui coeficient este: (formula 1.16) √ Această formulă nu este, practic, altceva decât rădăcina pătrată din raportul dintre χ2 şi numărul de cazuri. Putem spune că √ . Să reluăm exemplul legăturii dintre prezenţa părului blond şi prezenţa ochilor albaştri. Tabelul 1.13 – Coeficientul φ pentru relaţia dintre părul blond şi ochii albaştri Ochi albaştri Da Nu Blond fără ochi Blond cu ochi Da albaştri albaştri (n=54) (n=80) Păr blond Fără blond cu Fără blond, fără Nu ochi albaştri ochi albaştri (n=33) (n=48) Total albaştri (80+33) (n=113) 43 Total blonzi (80+54) (n=134)
  43. 43. Statistică aplicată în ştiinţele socio-umane Avem următoarele date: un număr de 80 de blonzi cu ochi albaştri (PXY), un număr total de 134 de blonzi (PX) şi un număr total de 113 persoane cu ochi albaştri (PY). Sigur că posedăm toate datele necesare pentru a calcula coeficientul φ. Putem înlocui în formulă aceste frecvenţe absolute sau putem converti frecvenţele absolute în proporţii, pentru evitarea numerelor kilometrice. În definitiv, rezultatul va fi acelaşi. La cercetarea noastră au participat un număr de 80+54+33+48=215 persoane. Proporţia blonzilor cu ochi albaştri este PXY=80/215=0,37, proporţia blonzilor PX=134/215=0,62 şi proporţia celor cu ochi albaştri este de PY=113/215=0,52. Aceste date pot fi acum introduse în formulă, obţinându-se valoarea 0,21 pentru coeficientul de corelaţie φ. √ √ Acest coeficient de corelaţie se foloseşte doar într-un singur caz, respectiv cel în care ambele variabile sunt dihotomice. În cazul în care una dintre variabile nu mai este dihotomică, acest coeficient devine nerelevant. Pearson, autorul acestui coeficient, a sesizat această dificultate în utilizarea lui; dacă dimensiunea tabelului de contingenţă creşte (dacă una dintre variabile nu mai este dihotomică), amplitudinea acestui coeficient creşte şi ea (Liebetrau, 1983). Pentru a contracara acest efect, s-a propus o variantă ajustată, numită ajustarea Sakoda, rezultând coeficientul de contingenţă Pearson. Coeficientul de contingenţă Pearson reprezintă o altă variantă derivată din χ2, de fapt fiind vorba despre coeficientul φ ajustat, şi se calculează în baza formulei următoare: √ (formula 1.17) 44
  44. 44. Cristian Opariuc-Dan Nu intrăm în detalii legate de acest coeficient, simplitatea lui excluzând orice fel de comentarii. Vom înlocui doar în formulă datele utilizate în exemplul anterior. √ √ √ √ Coeficientul de contingenţă nu este altceva decât o formă ajustată a coeficientului de asociere φ, putând fi utilizat pentru orice tip de variabile neparametrice. Dacă nu mă credeţi, aplicaţi a doua formulă a coeficientului de asociere φ, bazată pe valoarea lui χ2, şi veţi obţine acelaşi rezultat. Coeficientul de contingenţă Tschuprow se notează cu t (nu este acelaşi lucru cu testul de diferenţă semnificativă între mediile eșantioanelor, Student t) şi are, la bază, de această dată, coeficientul φ. A fost propus în anul 1919 de către matematicianul rus Alexander Alexandrovici Tschuprow, formula de calcul fiind: √√ (formula 1.18) Acest coeficient ţine seama doar de numărul de categorii din cadrul fiecărei variabile şi de valoarea lui φ, fiind vorba, de fapt, de o ajustare a acestui coeficient, similară celei efectuate de Pearson. Dacă reluăm exemplul relaţiei dintre ochii albaştri şi părul blond, în care am obţinut φ=0,21, observăm că fiecare variabilă are doar două categorii. În acest caz, coeficientul de contingenţă Tschuprow devine: √ √ √ √ √ √ √ √ Desigur, am obţinut valoarea iniţială a coeficientului φ. În realitate, acest coeficient ajustează valoarea lui φ în condiţiile în care cel puţin una 45
  45. 45. Statistică aplicată în ştiinţele socio-umane dintre variabile prezintă mai mult de două categorii, fiind o versiune mai precisă a coeficientului de contingenţă Pearson. Coeficientul de asociere v Cramer se foloseşte în cazul în care cel puţin una dintre variabile are mai mult de două modalităţi de realizare şi poate fi definit după formula următoare: √ (formula 1.19) unde l reprezintă minimum dintre numărul liniilor şi numărul coloanelor, iar n numărul subiecților. Dacă o variabilă are 3 categorii şi una 2 categorii, atunci l va lua valoarea 2, valoarea variabilei cu cele mai puţine categorii. Reluând exemplul utilizat la analiza coeficientului ce contingenţă χ2, am avut fumătorii şi genul biologic, variabile cu două categorii fiecare, deci l va avea valoarea 2. În acelaşi timp, numărul total a fost de 206 subiecţi pentru care am obţinut valoarea 4,2 pentru χ2. Înlocuind în formulă, obţinem 0,14 valoarea coeficientului de asociere v Cramer. √ √ √ √ I.1.4.1 Semnificaţia coeficienţilor de asociere Aceşti coeficienţi de asociere au fost stabiliţi în ideea compensării dezavantajelor coeficientului de contingenţă χ2. Prin urmare, toate interpretările legate de semnificaţia acestora se bazează pe interpretarea coeficientului χ2, de aceea nu vom intra în detalii. Practic, întâi se interpretează semnificaţia lui χ2 la un prag de semnificaţie stabilit şi apoi intensitatea asocierii în baza unuia dintre coeficienţi. 46
  46. 46. Cristian Opariuc-Dan Dacă luăm exemplul coeficientului de contingenţă, acesta are valoarea 0,14. Am arătat deja că această valoare este semnificativă la un prag de semnificaţie mai mic de 0,05 (χ2 avea valoarea 4,2; pragul de semnificaţie la un număr de 1 grade de libertate fiind mai mic de 0,05). Din coeficientul de contingenţă putem deduce faptul că asocierea dintre cele două variabile este slabă (vom vedea imediat ce înseamnă acest lucru), însă semnificativă. Iată că pe baza acestor coeficienţi derivaţi, putem stabili acum şi intensitatea contingenţei. Toţi coeficienţii sunt nedirecţionali. Aceasta înseamnă că pot lua valori cuprinse între 0 şi 1, unde apropierea de zero indică lipsa asocierii dintre variabile, iar valorile apropiate de 1 arată puterea asocierii acestora. O singură observaţie se mai impune la acest capitol. Mă veţi întreba, desigur, cum stabilesc semnificaţia pentru coeficientul φ, dacă aplic direct prima formulă de calcul, fără să mai ajung la χ2? Nu întâmplător am dat a doua formulă. Dacă ştiţi puţină matematică, veţi descoperi că: √ ⇔ ⇔ Putem, practic, extrage valoarea lui χ2, dacă ştim numărul de subiecţi şi valoarea lui φ. În exemplul nostru, φ avea valoarea 0,21, cercetare realizată pe 215 persoane. Atunci . Fiind un singur grad de libertate, observăm că această valoare este semnificativă, la un prag de semnificaţie mai mic de 0,01. Putem spune că există o asociere slabă între părul blond şi ochii albaştri. Adică, în majoritatea cazurilor, persoanele cu păr blond au şi ochii albaştri, restul situaţiilor fiind excepţii. 47
  47. 47. Statistică aplicată în ştiinţele socio-umane I.1.5 Coeficientul de asociere λ (lambda) Goodman şi Kruskal Coeficientul λ a fost stabilit de Goodman şi Kruskal, prin anul 1980, alături de un alt coeficient similar, coeficientul de asociere τ Goodman şi Kruskal, pe care nu-l vom aborda în această lucrare, deoarece se referă aproximativ la acelaşi lucru. Se calculează în situaţia asocierii unei variabile nominale cu o variabilă dihotomică, cu o altă variabilă nominală, cu o variabilă ordinală sau cu o variabilă scalară, în condiţiile în care aceasta este grupată în clase. Practic, acest coeficient se referă la cantitatea de cunoştinţe cuprinsă într-o variabilă, ce poate acoperi informaţiile din cealaltă variabilă. Sau, cu alte cuvinte, având o anumită cantitate de informaţie în variabila X, cât din variabila Y putem prezice? Formula de calcul este următoarea: ∑ ( ( ) ) (formula 1.20) unde nMi este cea mai mare frecvenţă de pe rândul i şi Max(Cj) este frecvența cea mai mare dintre frecvențele coloanelor, iar n se referă la numărul subiecților. Ştiţi ce mă bucură acum cel mai tare? Faptul că nu vă mai speriaţi de formule. Aţi observat că ele devin din ce în ce mai stufoase şi, totuşi, în realitate, aplicarea lor este foarte simplă. Să luăm un nou exemplu. Presupunem că am desfăşurat o cercetare în cadrul căreia dorim să studiem asocierea între două variabile: preferinţa pentru un partid politic (1 – PSD; 2 – PNL; 3 – PDL; 4 – PC şi 5 – PRM) şi nivelul de stres al subiecţilor pe o scală Likert de la 1 la 5 (1 – Foarte slab; 2 – Slab; 3 – Mediu; 4 – Ridicat; 5 – Foarte ridicat). Suntem în situaţia asocierii dintre o variabilă nominală (preferinţa pentru partide) şi o variabilă ordinală (nivelul de stres). Vom construi tabelul de contingenţă pentru cele două variabile. 48
  48. 48. Cristian Opariuc-Dan Structura tabelului este clară. Dintre cei care preferă PSD, 12 persoane au un nivel de stres foarte scăzut, 9 un nivel de stres scăzut, 7 un nivel de stres mediu, 4 ridicat şi o persoană prezintă nivelul stresului foarte ridicat. Situaţia este analogă în cazul celorlalte partide. Avem partidele afişate pe linii şi nivelul de stres pe coloane. În primul rând, va trebui să stabilim, pentru fiecare linie, celula cu frecvenţa cea mai mare. Pentru PSD, categoria cu frecvenţa cea mai mare este reprezentată de nivelul de stres foarte scăzut (12 persoane). Pentru PNL întâlnim categoria cu nivelul de stres scăzut (45 de persoane), pentru PDL nivelul de stres mediu (42 de persoane), pentru PC tot nivelul de stres mediu (10 persoane), iar pentru PRM nivelul de stres scăzut (5 persoane). Tabelul 1.14 – Tabelul de contingenţă pentru calculul coeficientului λ Nivelul de stres 1 2 3 4 Foarte Scăzut Mediu Ridicat scăzut 1 – PSD 9 7 4 12 2 – PNL 8 21 6 45 3 – PDL 7 19 13 Partidul 42 4 – PC 8 4 7 10 5 - PRM 1 1 3 5 36 81 33 Total coloane 82 5 Foarte ridicat 1 5 1 3 2 12 Efectuăm acum totalul pe coloane. În mod clar, categoria cu frecvenţa cea mai mare este cea a stresului scăzut (82 de persoane), în timp ce numărul total de participanţi la studiu a fost de 244 de persoane. În acest moment, informaţiile sunt suficiente pentru a putea completa formula. ∑ ( ) ( ) Am obţinut acum valoarea 0,19 pentru acest coeficient, valoare pe care o vom analiza din punctul de vedere al semnificaţiei. 49
  49. 49. Statistică aplicată în ştiinţele socio-umane I.1.5.1 Semnificaţia coeficientului λ Coeficientul λ este un alt coeficient nedirecţional. Aceasta înseamnă că poate lua valori între 0 şi 1, unde apropierile de zero ne arată că informaţiile conţinute într-o variabilă nu pot prezice cealaltă variabilă, variabilele neavând nimic în comun, iar apropierile de 1 sunt semnificative pentru gradul de predicţie a evoluţiei unei variabile, în baza informaţiilor conţinute în cealaltă variabilă. Analiza semnificaţiei acestui coeficient se face în baza statisticilor z, iar valorile vor fi raportate la distribuţia z. Prin urmare, va trebui să definim formula de calcul pentru statistica z a coeficientului λ şi apoi să comparăm această valoare cu valorile de referinţă z la diferite praguri de semnificaţie. Pentru a vă reaminti de semnificaţia notelor z, parcurgeţi capitolul referitor la distribuţia normală din lucrarea anterioară. Formula de transformare a coeficientului λ în statistica z este următoarea: (formula 1.21) √ unde λref înseamnă valoarea de referinţă λ, iar sλ reprezintă valoarea varianţei acestui coeficient. Deoarece acest coeficient măsoară cât dintr-o variabilă se poate găsi într-o altă variabilă, valoarea de referinţă se exprimă sub formă de proporţii. Dacă presupunem că nivelul de stres influenţează preferinţele pentru partidele politice, sau cu alte cuvinte putem prezice preferinţa pentru partide în baza analizei nivelului de stres, atunci plecăm de la o bază, de la o referinţă, în care presupunem, de exemplu, că 10% din nivelul de stres poate prezice preferinţa pentru partide. Această valoare de referinţă este aleasă în funcţie de necesităţile cercetării. Soluţia pesimistă este aceea conform căreia valoarea de referinţă se apropie de zero. Altfel spus, nu avem niciun motiv să presupunem că cele două variabile sunt legate în vreun fel. În acest caz, vom alege 50
  50. 50. Cristian Opariuc-Dan valori mici de referinţă, de 10%, 5%, 3% sau 1%. Exprimat sub formă de proporţii, valori de 0,10, 0,05, 0,03 sau 0,01 pentru λref. Dacă avem motive suficiente să credem că există legături între cele două variabile, atunci putem aborda soluţii optimiste, în sensul că vom considera o mare parte dintre informaţiile unei variabile ca fiind dependente de informaţiile din cealaltă variabilă. În acest sens, putem alege valori de 50%, 60%, 70% pentru λref. Nu există o regulă de atribuire în acest sens. Personal, vă recomand să fiţi sceptici şi să nu consideraţi valori mai mari de 0,10 – 0,15 pentru λref. Evident, cu cât valorile lui λref se apropie cu zero, cu atât legătura trebuie să fie mai puternică pentru a fi semnificativă. În exemplul nostru, am plecat de la presupunerea că doar 10% din nivelul de stres poate determina preferinţe pentru un anumit partid politic. Valoarea pentru λref va fi, aşadar, 0,10 şi vom analiza dacă la acest nivel putem vorbi despre o legătură semnificativă. Următorul aspect din formula 1.21 se referă la varianţa coeficientului λ. Această varianţă poate fi calculată în baza relației următoare: ( ∑ ( )(∑ ( ( )) ) ∑ ) (formula 1.22) unde nMi este cea mai mare frecvenţă de pe rândul i, Max(Cj) cea mai mare frecvență dintre frecvențele calculate pe coloane şi ∑ este suma tuturor frecvenţelor maxime asociate coloanei cu frecvenţa cea mai mare, m reprezentând numărul de rânduri. Aceasta este chiar complicată, nu-i aşa? Oare cum o calculăm? Poate vă gândiţi să o învăţaţi pe de rost pentru examene. Sau poate o memoraţi să impresionaţi prietenul ori prietena. Nu are rost. În condiţii de examen, ar trebui să vi se dea formula, iar dumneavoastră să ştiţi să o aplicaţi. Pentru prie51
  51. 51. Statistică aplicată în ştiinţele socio-umane ten ori prietenă, cred că puteţi să impresionaţi şi altfel. Dacă veţi scrie formula asta într-o scrisoare de amor, în mod sigur nu veţi reuşi decât să îndepărtaţi partenerul. Haideţi totuşi să vedem ce ne cere formula şi dacă e atât de complicat calculul. Vom relua tabelul de contingenţă. Numărul total de persoane este 244. Îl avem, aşadar, pe n. Suma celor mai mari frecvenţe de pe rânduri o ştim deja. Este 114 şi nu reprezintă altceva decât valoarea ∑ . Cea mai mare frecvență dintre frecvențele calculate pe coloane este situată în a doua coloană şi are valoarea 82. Iată că avem şi rezultatul pentru ( ). Tabelul 1.15 – Tabelul de contingenţă pentru calculul coeficientului λ Nivelul de stres 1 2 3 4 Foarte Scăzut Mediu Ridicat scăzut 1 – PSD 9 7 4 12 2 – PNL 8 21 6 45 3 – PDL 7 19 13 Partidul 42 4 – PC 8 4 7 10 5 - PRM 1 1 3 5 36 81 33 Total coloane 82 5 Foarte ridicat 1 5 1 3 2 12 Ce trebuie să mai facem? Trebuie să calculăm suma tuturor frecvenţelor maxime asociate coloanei cu frecvenţa cea mai mare. Am stabilit deja care este aceasta. Este a doua coloană. Care sunt frecvenţele maxime din această coloană? Pe primul rând avem frecvenţa 9, pe al doilea rând frecvenţa 45, pe al treilea rând frecvenţa 19, pe al patrulea rând frecvenţa 4 şi pe al cincilea rând frecvenţa 5. Care este frecvenţa cea mai mare? Evident, cea de pe al doilea rând, frecvenţa 45. Mai vedeţi şi alte cifre de 45 acolo? Nu. Ei bine, aceasta este şi suma mult căutată. Dacă aveaţi 45 pe rândul 2 şi 45 pe rândul 4, atunci suma frecvenţelor maxime ar fi fost 90 (45+45). În cazul nostru, avem o singură frecvenţă maximă, 45, şi aceea reprezintă valoarea pentru ∑ . Relaxaţi-vă. V-am spus că formulele mai mult sperie prin aspect 52
  52. 52. Cristian Opariuc-Dan decât prin modalitatea de calcul. Acum haideţi să înlocuim şi să găsim varianţa coeficientului λ. ∑ ( )(∑ ( ( ) ∑ ) ( )) Am găsit varianţa coeficientului. Nu trebuie decât să calculăm statistica z după formula de mai sus şi obţinem scorul z de 1,5. √ √ Acest scor îl vom compara cu valoarea de referinţă z pentru pragul de semnificaţie ales. Pentru un prag de semnificaţie de 0,05, valoarea z este de 1,96. Valoarea noastră (1,5) este mai mică decât valoarea prag. Prin urmare, nu există nicio legătură între nivelul de stres şi preferinţa pentru partide politice, în condiţiile în care 10% dintr-o variabilă ar explica cealaltă variabilă. Drept exerciţiu, calculaţi valoarea z pentru situaţia în care presupunem că 50% din preferinţa pentru partide politice este influenţată de nivelul de stres. Este această legătură semnificativă sau nu? Argumentaţi. I.1.6 Coeficientul de asociere γ (gamma) Un alt coeficient de asociere este coeficientul de asociere γ Goodman – Kruskal. La fel ca şi coeficientul de corelaţie a rangurilor τ Kendall, şi acest coeficient se bazează pe numărul de inversiuni şi proversiuni, adică pe numărul de perechi concordante şi discordante. Coeficientul se calculează foarte simplu pe baza formulei: 53
  53. 53. Statistică aplicată în ştiinţele socio-umane (formula 1.23) în care Pc reprezintă numărul perechilor concordante, iar Pd numărul perechilor discordante. Vom considera un exemplu, astfel încât să lămurim rapid bazele acestui coeficient. Să presupunem că efectuăm un studiu în mai multe oraşe, pentru a vedea dacă există o legătură între nivelul intelectual al primarilor şi mărimea oraşelor. Cele două variabile au fost operaţionalizate astfel: oraşele pot fi considerate oraşe mici, medii şi mari – în funcţie de numărul de locuitori, iar nivelul intelectual al primarilor poate fi considerat superior sau inferior. Ambele variabile se află la un nivel ordinal de măsură şi pot fi ierarhizate. Menţionez faptul că toate datele din lucrări sunt date fictive şi nu au nicio legătură cu fapte sau persoane reale. De aceea, nimeni nu are niciun motiv să se simtă lezat în vreun fel. Exemplele au fost alese astfel încât să se refere la fapte sociale de actualitate, în vederea unei însuşiri mai bune a informaţiei. Fac această precizare deoarece mi s-a sugerat că prin demersul meu îmi exprim preferinţe politice sau de altă natură. Departe de mine acest gând. Nu intenţionez decât să redactez o lucrare pe înţelesul tuturor, indiferent de specificul formării iniţiale – umanist sau realist. Şi, ca să folosesc un stereotip verbal, orice asemănare cu realitatea este pur întâmplătoare. Cine se simte lezat de aceste exemple, îl asigur că nu a fost intenţia mea, iar concluziile care decurg sunt rezultatul unor date absolut fictive şi nu au nicio legătură cu vreo realitate politică, economică sau socială. Tabelul 1.16 – Tabelul de contingenţă pentru calculul coeficientului γ Dimensiune oraş Mic Mediu Mare A B C Superior 10 15 20 Intelect primari D E F Inferior 10 5 3 54
  54. 54. Cristian Opariuc-Dan Acum să revenim. Convenim să reprezentăm rezultatul acestei cercetări sub forma unui nou tabel de contingenţă. Avem 10 primari cu un intelect superior în oraşele mici, 15 în oraşele medii şi 20 în oraşele mari. De asemenea, avem 10 primari cu un intelect inferior în oraşele mici, 5 în oraşele medii şi 3 în oraşele mari. În total cercetarea a cuprins un număr de 63 de oraşe. Cum calculăm perechile? Vă voi prezenta o procedură foarte simplă, fără a mai intra în detalii matematice, deoarece acestea implică anumite cunoştinţe de combinatorică. În cazul nostru, perechile reprezintă suma produselor înmulţirii frecvenței unei celule de la un nivel superior cu suma frecvențelor celulelor succesive de la un nivel inferior, datele fiind ordonate ascendent pentru perechile concordante şi descendent pentru perechile discordante. Aşa-i că nu aţi înţeles nimic? Iată, poate, prima situaţie în care lucrurile transpar mult mai clar din formule. Pc=A(E+F)+BF; Pd=C(D+E)+BD Am notat cu litere mari celulele din tabelul de mai sus. Nu-i aşa că acum lucrurile sunt clare? Avem toate datele necesare. Să le înlocuim în formulă. [ [ ] ] [ [ ] ] Am obţinut valoarea -0,56 pentru coeficientul de asociere γ. Această valoare va trebui să o analizăm apoi din punctul de vedere al semnificaţiei. I.1.6.1 Semnificaţia coeficientului γ Coeficientul γ reprezintă un raport al diferenţelor dintre perechile concordante şi cele discordante, bazat pe numărul total de perechi, fără a se lua în calcul perechile cu rangurile egale. Coeficientul γ este un coeficient direcţional şi poate lua valori cuprinse între -1 şi +1, la fel ca şi coeficientul ρ Spearman sau τ Kendall, având aceeaşi semnificaţie. În termenii coeficientu55
  55. 55. Statistică aplicată în ştiinţele socio-umane lui anterior (şi aici vorbim de coeficientul λ propus de aceiaşi savanţi), un coeficient λ de 0,56 înseamnă că avem 56% şanse să prezicem o variabilă, cunoscând rangul (nu valoarea) celeilalte variabile. Analiza semnificaţiei acestui coeficient se face similar coeficientului τ Kendall. I.1.7 Coeficientul tetrachoric şi polichoric Coeficientul de corelaţie tetrachoric este notat, în general, sub forma rtet , fiind definit de Pearson în anul 1901 şi se foloseşte atunci când ambele variabile sunt dihotomice, la fel ca şi coeficientul φ, însă aceste variabile trebuie să provină din variabile continui şi normal distribuite (spre exemplu, prin gruparea vârstei subiecţilor în subiecţi tineri şi vârstnici). Dacă variabilele sunt situate la un nivel ordinal, au mai multe grade de intensitate şi pot respecta caracteristica provenienţei din variabile continui, se foloseşte un alt coeficient de corelaţie, şi anume coeficientul polichoric. Ambii coeficienţi se bazează pe acelaşi principiu. Vom relua tabelul explicativ al coeficientului φ pentru a stabili formula de calcul în cazul coeficientului de corelaţie tetrachoric. Tabelul 1.17 – Schema generală de calcul a coeficientului tetrachoric Variabila X Absent X Prezent X Absent X Prezent X Prezenţă Y Prezent Y Prezent Y A B Variabila Y Absent X Prezent X Absenţă Y Absent Y Absent Y C D Formula coeficientului de corelaţie tetrachoric se bazează pe calculul cosinusului, după următoarea expresie: ( √ ) 56 (formula 1.24)
  56. 56. Cristian Opariuc-Dan În cadrul acestei formule, coloanele A, B, C, D reprezintă proporţii şi nu frecvenţe absolute. Coeficientul este folosit mai ales în situaţiile în care se doreşte măsurarea gradului de acord între doi evaluatori. Să presupunem că doi psihologi evaluează un lot de subiecţi în vederea depistării prezenţei sau absenţei anxietăţii. Rezultatele pot fi sistematizate în tabelul de mai jos: Tabelul 1.18 – Tabelul de calcul a coeficientului tetrachoric Psiholog X Absentă Prezentă A B Prezentă 40% 10% Psiholog Y C D Absentă 20% 30% Analizând acest tabel, constatăm că 40% dintre subiecţi (în proporţie de 0,4) au fost consideraţi non-anxioşi de psihologul X şi anxioşi de psihologul Y – situaţie de dezacord între cei doi -, 20% dintre subiecţi (în proporţie de 0,2) au fost consideraţi non-anxioşi de ambii psihologi – situaţie de acord pe non-anxietate -, 10% dintre subiecţi (proporţie de 0,10) sunt consideraţi anxioşi de ambii psihologi – situaţie de acord pe anxietate - şi 30% dintre subiecţi sunt consideraţi anxioşi de psihologul X şi non-anxioşi de psihologul Y – din nou situaţie de dezacord. Se pune acum problema în ce măsură cei doi psihologi au căzut sau nu de acord în privinţa anxietăţii subiecţilor evaluaţi. Iată o situaţie tipică în care vom folosi coeficientul tetrachoric. ( ( √ ) ( √ ) ( √ ) ) Observăm, în primul rând, o corelaţie negativă, ceea ce ne duce cu gândul la un dezacord puternic între cei doi psihologi, fapt indicat de valoarea ridicată a coeficientului de corelaţie. 57
  57. 57. Statistică aplicată în ştiinţele socio-umane În cazul în care anxietatea ar fi fost evaluată, să presupunem, pe o scală de la 1 la 5, unde 1 ar însemna foarte puţin anxios iar 5 foarte anxios, coeficientul tetrachoric nu poate fi folosit. În acest scop se utilizează coeficientul polichoric, bazat pe acelaşi principiu. Din nefericire, algoritmul de calcul este unul iterativ, presupune mai multe etape şi are un grad ridicat de complexitate, motiv pentru care nu-l vom prezenta aici. Pachetul de programe SPSS for Windows nu conţine aceşti doi coeficienţi. Dacă doriţi să efectuaţi analize bazate pe coeficienţii de corelaţie tetrachoric, polichoric sau poliserial (o variantă a coeficientului polichoric în care se asociază o variabilă scalară şi o variabilă ordinală), vă recomand utilizarea pachetului LISREL şi a componentei PRELIS, pachet software produs de SSI – Scientific Software Internaţional (http://www.ssicentral.com). În general, analizele bazate pe aceşti coeficienţi intră în componenţa ecuaţiilor structurale şi a modelelor de ecuaţii structurale (SEM). I.1.8 Coeficientul de concordanţă W Kendall Coeficientul de concordanţă W Kendall se bazează pe ranguri, fiind folosit, de obicei, la stabilirea acordului dintre evaluatori. Fiind mult mai simplu de calculat în Tabelul 1.19 – Notele obţinute de 6 studenţi evaluaţi de 3 comparaţie cu procedeul profesori tetrachoric sau Evaluator 1 Evaluator 2 Evaluator 3 polichoric, tehnica este 7 8 7 Student 1 6 5 8 Student 2 larg răspândită printre 9 10 8 Student 3 specialişti. Pentru a înţe8 8 7 Student 4 6 7 6 Student 5 lege exact semnificaţia 7 8 9 Student 6 acestui coeficient, să presupunem că un număr de 6 studenţi sunt evaluaţi de către o comisie de licenţă formată din trei evaluatori. Rezultatele vor fi trecute într-un tabel similar tabelului 1.19. 58

×