001 stat-descriptiva-2014-pdf

1
TEMATICA CURSULUI
1. Statistica descriptivă
2. Tabele de contingență
3. Testarea neparametrică
4. Testarea parametrică
5. Eșantionarea
6. Analiza varianței (ANOVA)
7. Corelarea și regresia
8. Analiza discriminantă
TEMA 1: Statistica descriptivă
1. Tipurile de scale
2. Organizarea datelor
3. Tendința centrală
4. Variația (împrăștierea) datelor
5. Asimetria și boltirea
distribuției

2
I. Patru tipuri de scale
Tip scală
Caracteristici
Clasificări Ordonări Intervale
egale
Intervale
proporționale
Nominală X – – –
Ordinală X X – –
Interval X X X –
Proporțională X X X X
Exemple de întrebări din chestionar
 Care este ocupația Dvs.? (nominală)
 Ce apreciați la un calculator în primul, al doilea și al
treilea rând? (ordinală)
 Aveți vârsta de:
□ 20-29
□ 30- 39 (interval)
□ 40-49
 Care este venitul Dvs. lunar (lei)? (proporțională)

3
II. Organizarea Datelor
2.1. Frecvența distribuției
În cadrul unei cercetări au fost obținute următoarele
valori ale variabilei studiate:
X = (7, 5, 7, 8, 4, 9, 8, 10, 5, 3, 8, 10, 8, 7, 9, 6, 4, 7, 6,
1, 8, 6, 8, 7, 5, 7, 4, 7, 1, 9, 5, 8, 6, 7, 7).
În total sunt 35 de date colectate.
2.1. …
În cazul unei distributii simple a frecventei sunt
necesari urmatorii pasi:
 Se cauta valorile extreme din șirul de date (valoarea cea mai
mare și cea mai mica);
 Se scriu toate valorile cuprinse între cele doua extreme într-o
ordine ascendentă (crescătoare) pe o coloană;
 Se numără de câte ori apare fiecare valoare în șirul de date;
 Se trec apoi în tabel, frecvențele de apariție a fiecărei valori.

4
2.1. …Tabelul de frecvențe
Obținem:
(N=35)
Valoarea, X Frecvența, f
1 2
2 0
3 1
4 3
5 4
6 4
7 9
8 7
9 3
10 2
În cazul datelor nominale în prima coloană sunt incluse valorile calitative ale
acestora (cuvinte, nu cifre)
Exemplu:
De ordonat pe intervale, rezultatele intervievării a 48 de
subiecți.
X = (17, 12, 8, 5, 10, 12, 23, 21, 22, 11, 14, 20, 18, 17, 15, 14, 21, 7,
10, 14, 18, 23, 25, 18, 17, 16, 29, 14, 19, 6, 27, 15, 17, 19, 14, 16, 10,
24, 17, 19, 15, 16, 12, 4, 22, 31, 19, 18).
2.2. Gruparea datelor pe intervale

5
1. Ordonăm datele (în ordine ascendentă  sau descendentă)
X = (4, 5, 6, 7, 8, 10, 10, 10, 11, 12, 12, 12, 14, 14, 14, 14, 14, 15, 15, 15, 16,
16, 16, 17,17, 17, 17,17, 18, 18, 18, 18, 19, 19, 19, 19, 20, 21, 21, 22, 22,
23, 23, 24, 25, 27, 29, 31).
2. Notam valorile extreme (4 si 31)
3. Calculam diferenta dintre cele doua valori = 27
4. Stabilim marimea intervalului (h) și numărul de intervale (i),
astfel că h•i =27+1 .
Rezolvare:
De exemplu,        h=2 ne va oferi 28/2=14 intervale
h=3 ‐ respectiv 28/3=9 intervale și 1 rest (neacoperit)
h=4 – respectiv 28/4=7 intervale
h=5 – respectiv 28/5 = 5 intervale și 3 rest (neacoperit)
Dacă există resturi ‐ se adaugă un interval și calculăm supraacoperirea:
h=3, deci 3‐restul =2, deci 2  puncte le repartizăm la extreme, conform
următoarelor opțiuni ale extremelor intervalelor: [2;31] sau [3;32] sau [4;33]
h=5, deci 5 minus‐restul =2, deci iarăși 2  puncte le repartizăm la extreme și
obținem: [2;31] sau [3;32] sau [4;33]
Rezolvare:

6
Rezolvare:
Opțiuni de intervale pentru h=3
Extremități
Intervale [2;31] [3;32] [4;33]
1 2‐4 3‐5 4‐6
2 5‐7 6‐8 7‐9
3 8‐10 9‐11 10‐12
4 11‐13 12‐14 13‐15
5 14‐16 15‐17 16‐18
6 17‐19 18‐20 19‐21
7 20‐22 21‐23 22‐24
8 23‐25 24‐26 25‐27
9 26‐28 27‐29 28‐30
10 29‐31 30‐32 31‐33
 Trei, cinci și zece constitue marimea cea mai des întâlnită a
intervalelor.
 Dacă pentru analiză sunt necesare date ”scale”, putem transforma
intervalele înlocuind categoriile - cu cifre care reprezintă media
intervalului.
 Este bine dacă primul interval începe, cu o valoare multiplu de h
ales. De exemplu, daca 22 este cel mai mic număr, iar marimea
intervalului este 3, atunci vom începe cu valoarea 21 deoarece este
multiplu de trei (în exemplul nostru - opțiunea din coloana 2).
 Pentru h= 5 în afară de intervalul {1-5, 6-10, etc.} se mai recomandă
și {3-7, 8-12, etc.} care asigură mijlocul intervalului multiplu de 5.
Intervale: concluzii și sugestii finale

7
Exemplu: soluția – coloana 2
Intervalul (I) Mijlocul clasei Frecventa (f)
30-32 31 1
27-29 28 2
24-26 25 2
21-23 22 6
18-20 19 9
15-17 16 11
12-14 13 8
9-11 10 4
6-8 7 3
3-5 4 2
III. Indicatori ai tendinței centrale
• Media
• Mediana
• Modul

8
Media
 Media este un indicator care caracterizeaza un esantion (o populatie)
din punctul de vedere al unei caracteristici studiate. Exista mai multe
notări pentru medie: M si X reprezinta media unui eșantion, iar µ (miu)
este media unei colectivități generale (populații).
 Media aritmetică a unui sir de date se calculează astfel:
X = ∑ X / N
 Pentru sirul de date: X = (4, 8, 6, 7, 9, 11, 9, 9, 12, 7)
 Media X = (4+8+6+7+9+11+9+9+12+7) / 10 = 82 / 10 = 8,2.
 În cazul în care sirul de date este prezentat într‐un tabel de frecvențe se
aplică formula mediei ponderate:
∑fi * Xi
X = ‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐
∑fi
 Unde: fi reprezinta frecvența grupată, iar Xi ‐ centrul intervalului (exemplu
– slide‐ul următor).
…

9
∑fi = 48 ∑ =Xi*fi= 789 X = 789 / 48 = 16,4
… exemplu (cazul unui tabel de frecvențe)
Intervalul (i) Centrul (Xi) Frecventa (fi) Xi * fi
30‐32 31 1 31
27‐29 28 2 56
24‐26 25 2 50
21‐23 22 6 132
18‐20 19 9 171
15‐17 16 11 176
12‐14 13 8 104
9‐11 10 4 40
6‐8 7 3 21
3‐5 4 2 8
∑ = 48 ∑ = 789
Mediana
 Mediana este acel parametru care prin pozitia sa, se afla în mijlocul seriei
de date. Ea reprezinta punctul central al seriei, deoarece la stânga si la
dreapta ei se situeaza câte 50% din totalitatea datelor. Mediana coincide
cu media în cazul unei distributii teoretice normale si se îndeparteaza mult
de aceasta daca distributia este asimetrica.
 Pentru a calcula mediana în cazul distributiei simple a datelor exista doua
situatii:
1. Când n este impar locul medianei se stabileste astfel:
Loc mediana = (n+1) / 2
2. Când n este par sunt adunate valorile din centrul seriei si se împart la doi.

10
Mediana- cazul unui șir simplu
 De exemplu, șirul X = (4, 8, 6, 7, 9, 11, 9, 9, 12, 7)
 Mai întâi datele sunt aranjate în ordine crescatoare sau descrescatoare.
 Astfel, X devine: (4, 6, 7, 7, 8, 9, 9, 9, 11, 12). Observam ca n este par (n=10). În
acest caz vom lua valorile care se gasesc pe locurile din mijlocul seriei, este vorba
de locurile 5 si 6. Cele doua valori care se gasesc pe aceste locuri sunt 8 si 9.
Pentru a calcula mediana adunam cele doua valori gasite si împartim rezultatul la
doi. Astfel, Me = (8+9) / 2 = 8,5
 Daca am fi renuntat la un numar din sir, sa spunem 12, am fi obtinut un sir de
noua numere (4, 6, 7, 7, 8, 9, 9, 9, 11). În acest caz, locul medianei este stabilit
dupa formula: (n+1) / 2, (deci, poziţia cinci). Respectiv, mediana
 Me = 8.
Mediana – cazul șirului de date
sub formă de tabel de frecvențe
unde:
x0 ‐ limita inferioară a intervalului median (sau media între limita
inferioară a intervalului median și limita superioară a intervalului
precedent)
h ‐ mărimea intervalului median
N ‐ numarul total al cazurilor
nm ‐ frecvența intervalului median
ncpm ‐ frecvențele cumulative până la intervalul median
m
cpm
n
n
N
hxMe


 2
1
0

11
… exemplu
Intervalul Centrul i Frecventa (fi) Frecventa cumulata
30-32 31 1 48
27-29 28 2 47
24-26 25 2 45
21-23 22 6 43
18-20 19 9 37
15-17 16 11 28
12-14 13 8 17
9-11 10 4 9
6-8 7 3 5
3-5 4 2 2
6,16
11
17
2
148
35,14 


Me
… etapele procesului de calcul
 Stabilirea punctului mai jos și mai sus de care se situeaza câte 50% din cazuri
(N+1)/2. În cazul dat vom avea (48+1)/2=24,5;
 Stabilirea intervalului care contine mediana. Se cauta în coloana frecventelor
cumulate intervalul care corespunde locului medianei (28). Pozitia 24 din sirul de
date este ocupată de o valoare cuprinsa în intervalul 15‐17;
 Se stabileste limita inferioara a intervalului care cuprinde mediana (15+14)/2 =
14,5 cât si frecventa datelor sale (11);
 Se calculeaza frecventele cumulate, care preced clasa care contine mediana ‐ 17;
 Se calculeaza marimea intervalului (h=3) ‐ care cuprinde valorile 15,16 si 17 sau
altfel ‐ diferenta dintre limita maxima ((16+19)/2 =17,5) si cea minima a
intervalului ce contine mediana este 3 (17,5 ‐14,5).

12
Cuartilele și decilele
 Cuartilele sunt acele valori ale caracteristicii, care separă seria în patru părţi
egale:
 cuartila inferioară, notată cu Q1, este mai mare sau egală de 25% din termenii
seriei şi mai mică sau egală de 75% dintre ei;
 cuartila a doua Q2 și decila a cincea D5 coincide cu Me şi separă seria în două
părţi egale;
 cuartila superioară Q3 este mai mare sau egală de 75% din numărul termenilor şi
mai mică sau egală de 25% din numărul lor.
 În cazul în care se calculează decilele, seria se divide în zece părţi egale folosind în
acest scop nouă decile (D1, D2 … D9).
Cuartilele și decilele
unde:
Q1, Q3 – cuartila 1 (25%) și 3 (75%)
x0 este limita inferioară a intervalului cuartilei,
decilei
h este mărimea intervalului cuartilei, decilei
N este numarul total al cazurilor
nq și nd frecvența intervalului cuartilei, decilei
ncpq și ncpd ‐ frecvențele cumulative până la
intervalul cuartilei, decilei
q
cpq
n
n
N
hxQ


 4
1
01
q
cpq
n
n
N
hxQ


 4
)1(
3
03
d
cpd
n
n
N
hxD


 10
)1(
1
01

13
… exemplu
Intervalul Centrul i Frecventa (fi) Frecventa cumulata
30-32 31 1 48
27-29 28 2 47
24-26 25 2 45
21-23 22 6 43
18-20 19 9 37
15-17 16 11 28
12-14 13 8 17
9-11 10 4 9
6-8 7 3 5
3-5 4 2 2
4,20
9
28
4
148
3
35,173 


Q
Modul
Modul este parametrul care corespunde celei mai mari frecvente, adica este valoarea
cea mai frecvent întâlnita.
De exemplu, X = (4, 8, 6, 7, 9, 11, 9, 9, 12, 7).
 Dupa ordonarea datelor obtinem X = (4, 6, 7, 7, 8, 9, 9, 9, 11, 12). Se observa ca
valoarea cea mai întâlnita este 9 (apare de trei ori).
 Ca urmare modul pentru acest sir este: Mo = 9

14
Modul - cazul sirului de date sub formă
de tabel de frecvente
 Pentru date grupate, se cauta intervalul care are cea mai mare frecvență. În
cazul de mai jos, acest interval este 15‐17, în interiorul caruia se afla 11
valori.
 Valoarea modala este egala cu valoarea plasată în centrul acestui interval,
adică Mo = 16.
Intervalul (i) Frecventa (f) Intervalul (i) Frecventa (f)
30-32 (31) 1 15-17 (16) 11
27-29 (28) 2 12-14 (13) 8
24-26 (25) 2 9-11 (10) 4
21-23 (22) 6 6-8 (9) 3
18-20 (19) 9 3-5 (4) 2
IV. Indicatori ai variației (dispersiei)
Principalii indicatori ai variaţiei sunt:
1. Amplitudinea A
2. Abaterea medie pătratică (σ pentru populație și S pentru eșantion)
3. Dispersia (σ2 pentru populație și S2 pentru eșantion)
4. Coeficientul de variaţie V.
1. AMPLITUDINEA: A = (Xmax – Xmin)
 Pentru a calcula amplitudinea sirului de date:
 X = (7, 5, 10, 4, 8, 5, 8, 9, 7) vom avea: A =10 ‐ 4 = 6.

15
Abaterea medie patratică:
cazul unui șir simplu
Unde:
Xi sunt valorile individuale;
X este media esantionului;
µ este media populatiei
N, n este numarul de subiecti observati
(mărimea populației și respectiv, a eșantionului)
N
x
N
i
i

 1
2
)µ(

n
xx
S
n
i
i

 1
2
)(
Exemplu
De calculat S pentru urmatorul sir de date:
X = (4, 6, 7, 9, 8, 5, 8, 3, 10, 6) X= 66/10 = 6,6
X X-X (X-X) 2
4 -2,6 6,76
6 -0,6 0,36
7 0,4 0,16
9 2,4 5,76
8 1,4 1,96
5 -1,6 2,56
8 1,4 1,96
3 -3,6 12,96
10 3,4 11,56
6 -0,6 0,36
∑ (X‐X)2 = 44,40
10,2
10
40,44
S

16
Abaterea medie patratică:
cazul seriilor cu frecvente
Unde: Xi sunt valorile individuale;
X este media esantionului;
µ este media populatiei
n reprezintă frecvențele observate





 k
i
i
i
i
i
n
n
k
xx
S
1
1
2
)(





 k
i
i
i
k
i
i
n
nx
1
1
2
)µ(

Exemplu
De calculat S pentru urmatoarele date:
X = 16,4
∑ ni = 48
∑ ni *(X‐X)2 = 1709,9
97,5
48
9,1709
S
(i) Xi ni (Xi-X) (Xi-X)2 ni * (Xi-X)2
30-32 31 1 14,6 213,2 213,2
27-29 28 2 11,6 134,6 269,1
24-26 25 2 8,6 73,96 147,9
21-23 22 6 5,6 31,36 188,2
18-20 19 9 2,6 6,76 60,84
15-17 16 11 -0,4 0,16 1,76
12-14 13 8 -3,4 11,56 92,48
9-11 10 4 -6,4 40,96 163,8
6-8 7 3 -9,4 88,36 265,1
3-5 4 2 -12,4 153,8 307,5

17
 Este utilizat în scopul stabilirii gradului de omogenitate a unui esantion
 Unde: S este abaterea standard a esantionului studiat; X este media
eșantionului.
 Spre exemplu, daca X = 11,40, iar S = 2,7, vom avea:
 V = (2,7/11,4)*100 = 23,68%
 Pentru cazul de mai sus V = (5,97/16,4)*100 = 36,4%
Coeficientul de variație
100
x
S
V
Interpretarea coeficientului de variație
 daca V este cuprins între 0 si 15%, atunci împrastierea datelor (variația) este
foarte mica, iar media este reprezentativă, deoarece eșantionul măsurat este
omogen;
 daca valoarea lui este între 15 si 30%, variația datelor este mijlocie, media fiind
înca suficient de reprezentativa;
 daca V depășește 30%, media nu este reprezentativă pentru eșantionul în cauză,
fiind recomandata utilizarea medianei din cauza lipsei de omogenitate a grupului.

18
V. Indicatori de asimetrie si boltire
 Exista situatii destul de frecvente când media nu corespunde cu mediana. Daca ele
ar coincide am vorbi despre o distributie complet simetrica, specifica unei
distributii normale teoretice.
 Indicele de asimetrie (de oblicitate) ne arata în ce masura media se îndeparteaza
de mediana, si implicit, în ce masura curba de distributie normala a datelor se
departeaza de mijloc, deplasându‐se spre stânga sau spre dreapta. Sunt
considerate distributii relativ normale cazurile în care acesti indicatori nu depasesc
±1,96 abateri medii patratice.
 Vorbim despre o asimetrie pozitiva în situatia în care media este mai mare decât
mediana, caz în care indicele de asimetrie ia valori pozitive si apare o deplasare a
datelor spre stânga.
 Vorbim despre o asimetrie negativă în situatia în care media este mai mică decât
mediana, caz în care indicele de asimetrie ia valori negative si apare o deplasare a
datelor spre dreapta.
Reprezentarea grafică
fi fi fi
fmax fmax fmax
xi xi xi
x =Me=Mo Mo Me x x Me Mo
serie perfect simetrică asimetrie pozitivă asimetrie negativă

19
Asimetrie (skewness)
Formula de calcul a coeficientului de asimetrie Ca:
unde σ este abaterea medie patratică de sondaj
 Dacă Ca =0  serie simetrică.
 Dacă Ca>0  serie cu asimetrie pozitivă (deplasare spre stânga).
 Dacă Ca<0 serie cu asimetrie negativă (deplasare spre dreapta).
3
3
)(
n
xx
C i
a


Asimetrie (skewness): 3 cazuri
a d e
1 0 2
2 0 2
2 0 2
3 0 2
3 0 2
3 0 2
4 0 2
4 0 2
4 0 2
4 0 2
5 0 2
5 0 2
5 0 2
6 1 1
6 2 0
7 3 0

20
Asimetrie – lipsa (cazul a)
Ca = 0,000
Asimetrie pozitiva – spre stanga (cazul d)
(produse de lux)
Ca = 2,411

21
Asimetrie negativa – spre dreapta (cazul e)
(produse de larg consum consum – zaharul)
Ca = -2,082
Boltire (kurtosis)
 Un indice de aplatizare mare arată o repartiţie cu “cozi” mari
(sunt prezente categorii depărtate de medie), în timp ce un
indice de aplatizare mic arată o repartiţie “ascuţită” sau “boltită”
în care sunt prezente mai puţine categorii depărtate de medie.
 Formula de calcul este :
 unde σ este abaterea medie patratică de sondaj.
 În cazul unei repartiţii apropiate de repartiţia normală,
coeficientul de aplatizare este în jurul valorii 0.
 Cb >0, atunci distribuția are forma ascuțită iar dacă Cb <0 -
aplatizată
3
)(
4
4



n
xx
C i
b

22
Boltire: 2 cazuri
b c
1 1
1 2
1 3
1 3
1 3
1 3
1 3
5 3
6 3
9 3
9 3
9 3
9 3
9 3
9 4
9 5
Boltire: cazul a 2 segmente distincte
Cb = - 2,118

23
Boltire: cazul omogenitatii excesive
Cb = 3,913
Exemplu de calcul pentru tabele de frecvențe
Vânzări lunare
(mii lei)
Nr. comis
voiajori
41 – 50 10
51 – 60 30
61 – 70 50
71 – 80 50
81 – 90 70
91 – 100 60
101 – 110 30
Total 300
O mare companie de cosmetică are o
rețea dezvoltată de distribuție prin
comis voiajori. A fost extras un
eșantion de 300 de persoane din
rândurile acestora. Datele cu privire la
vânzările lunare sunt prezentate în
tabel. Caracterizaţi şi măsuraţi
asimetria și boltirea distribuţiei comis
voiajorilor.
Me = 86,67 mii lei
x = 80,17 mii lei
 = 16,10

24
Coeficientul de asimetrie se calculează în baza formulei:
Eroarea standard pentru asimetrie este
În SPSS în calitate de test de normalitate a asimetrie este considerat raportul
Adică în cazul nostru:
… asimetrie
254,0
07,16300
315797)(
33
3







n
nxx
C
ii
as
141,0300/6/6  nE a
 2;2/6/ nC as
 2;280,1141,0/254,0 
Coeficientul de boltire se calculează conform formulei:
Eroarea standard pentru boltire este
În SPSS în calitate de test de normalitate a boltirii este considerat raportul
Adică în cazul nostru:
Adică putem vorbi despre un nivel de aplatizare excesiv
… boltire
283,0300/24/24  nE b
 2;2/24/ nC b
 2;289,2283,0/819,0 
819,031806,2
07,16300
43620028
3
)(
44
4





n
nxx
C
ii
b

001 stat-descriptiva-2014-pdf

Recommended

Recommended

More Related Content

Featured

Featured (20)

001 stat-descriptiva-2014-pdf