SlideShare a Scribd company logo
1 of 24
Download to read offline
1
TEMATICA CURSULUI
1. Statistica descriptivă
2. Tabele de contingență
3. Testarea neparametrică
4. Testarea parametrică
5. Eșantionarea
6. Analiza varianței (ANOVA)
7. Corelarea și regresia
8. Analiza discriminantă
TEMA 1: Statistica descriptivă
1. Tipurile de scale
2. Organizarea datelor
3. Tendința centrală
4. Variația (împrăștierea) datelor
5. Asimetria și boltirea
distribuției
2
I. Patru tipuri de scale
Tip scală
Caracteristici
Clasificări Ordonări Intervale
egale
Intervale
proporționale
Nominală X – – –
Ordinală X X – –
Interval X X X –
Proporțională X X X X
Exemple de întrebări din chestionar
 Care este ocupația Dvs.? (nominală)
 Ce apreciați la un calculator în primul, al doilea și al
treilea rând? (ordinală)
 Aveți vârsta de:
□ 20-29
□ 30- 39 (interval)
□ 40-49
 Care este venitul Dvs. lunar (lei)? (proporțională)
3
II. Organizarea Datelor
2.1. Frecvența distribuției
În cadrul unei cercetări au fost obținute următoarele
valori ale variabilei studiate:
X = (7, 5, 7, 8, 4, 9, 8, 10, 5, 3, 8, 10, 8, 7, 9, 6, 4, 7, 6,
1, 8, 6, 8, 7, 5, 7, 4, 7, 1, 9, 5, 8, 6, 7, 7).
În total sunt 35 de date colectate.
2.1. …
În cazul unei distributii simple a frecventei sunt
necesari urmatorii pasi:
 Se cauta valorile extreme din șirul de date (valoarea cea mai
mare și cea mai mica);
 Se scriu toate valorile cuprinse între cele doua extreme într-o
ordine ascendentă (crescătoare) pe o coloană;
 Se numără de câte ori apare fiecare valoare în șirul de date;
 Se trec apoi în tabel, frecvențele de apariție a fiecărei valori.
4
2.1. …Tabelul de frecvențe
Obținem:
(N=35)
Valoarea, X Frecvența, f
1 2
2 0
3 1
4 3
5 4
6 4
7 9
8 7
9 3
10 2
În cazul datelor nominale în prima coloană sunt incluse valorile calitative ale
acestora (cuvinte, nu cifre)
Exemplu:
De ordonat pe intervale, rezultatele intervievării a 48 de
subiecți.
X = (17, 12, 8, 5, 10, 12, 23, 21, 22, 11, 14, 20, 18, 17, 15, 14, 21, 7,
10, 14, 18, 23, 25, 18, 17, 16, 29, 14, 19, 6, 27, 15, 17, 19, 14, 16, 10,
24, 17, 19, 15, 16, 12, 4, 22, 31, 19, 18).
2.2. Gruparea datelor pe intervale
5
1. Ordonăm datele (în ordine ascendentă  sau descendentă)
X = (4, 5, 6, 7, 8, 10, 10, 10, 11, 12, 12, 12, 14, 14, 14, 14, 14, 15, 15, 15, 16,
16, 16, 17,17, 17, 17,17, 18, 18, 18, 18, 19, 19, 19, 19, 20, 21, 21, 22, 22, 
23, 23, 24, 25, 27, 29, 31). 
2. Notam valorile extreme (4 si 31) 
3. Calculam diferenta dintre cele doua valori = 27 
4. Stabilim marimea intervalului (h) și numărul de intervale (i), 
astfel că h•i =27+1 .
Rezolvare:
De exemplu,        h=2 ne va oferi 28/2=14 intervale  
h=3 ‐ respectiv 28/3=9 intervale și 1 rest (neacoperit)
h=4 – respectiv 28/4=7 intervale
h=5 – respectiv 28/5 = 5 intervale și 3 rest (neacoperit)  
Dacă există resturi ‐ se adaugă un interval și calculăm supraacoperirea:
h=3, deci 3‐restul =2, deci 2  puncte le repartizăm la extreme, conform 
următoarelor opțiuni ale extremelor intervalelor: [2;31] sau [3;32] sau [4;33]
h=5, deci 5 minus‐restul =2, deci iarăși 2  puncte le repartizăm la extreme și 
obținem: [2;31] sau [3;32] sau [4;33]
Rezolvare:
6
Rezolvare:
Opțiuni de intervale pentru h=3
Extremități
Intervale [2;31] [3;32] [4;33]
1 2‐4 3‐5 4‐6
2 5‐7 6‐8 7‐9
3 8‐10 9‐11 10‐12
4 11‐13 12‐14 13‐15
5 14‐16 15‐17 16‐18
6 17‐19 18‐20 19‐21
7 20‐22 21‐23 22‐24
8 23‐25 24‐26 25‐27
9 26‐28 27‐29 28‐30
10 29‐31 30‐32 31‐33
 Trei, cinci și zece constitue marimea cea mai des întâlnită a
intervalelor.
 Dacă pentru analiză sunt necesare date ”scale”, putem transforma
intervalele înlocuind categoriile - cu cifre care reprezintă media
intervalului.
 Este bine dacă primul interval începe, cu o valoare multiplu de h
ales. De exemplu, daca 22 este cel mai mic număr, iar marimea
intervalului este 3, atunci vom începe cu valoarea 21 deoarece este
multiplu de trei (în exemplul nostru - opțiunea din coloana 2).
 Pentru h= 5 în afară de intervalul {1-5, 6-10, etc.} se mai recomandă
și {3-7, 8-12, etc.} care asigură mijlocul intervalului multiplu de 5.
Intervale: concluzii și sugestii finale
7
Exemplu: soluția – coloana 2
Intervalul (I) Mijlocul clasei Frecventa (f)
30-32 31 1
27-29 28 2
24-26 25 2
21-23 22 6
18-20 19 9
15-17 16 11
12-14 13 8
9-11 10 4
6-8 7 3
3-5 4 2
III. Indicatori ai tendinței centrale
• Media
• Mediana
• Modul
8
Media
 Media este un indicator care caracterizeaza un esantion (o populatie) 
din punctul de vedere al unei caracteristici studiate. Exista mai multe
notări pentru medie: M si X reprezinta media unui eșantion, iar µ (miu) 
este media unei colectivități generale (populații). 
 Media aritmetică a unui sir de date se calculează astfel: 
X = ∑ X / N 
 Pentru sirul de date: X = (4, 8, 6, 7, 9, 11, 9, 9, 12, 7) 
 Media X = (4+8+6+7+9+11+9+9+12+7) / 10 = 82 / 10 = 8,2. 
 În cazul în care sirul de date este prezentat într‐un tabel de frecvențe se 
aplică formula mediei ponderate: 
∑fi * Xi
X =   ‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐
∑fi
 Unde: fi reprezinta frecvența grupată, iar Xi ‐ centrul intervalului (exemplu 
– slide‐ul următor). 
…
9
∑fi = 48 ∑ =Xi*fi= 789 X = 789 / 48 = 16,4
… exemplu (cazul unui tabel de frecvențe)
Intervalul (i) Centrul (Xi) Frecventa (fi) Xi * fi
30‐32 31 1 31
27‐29 28 2 56
24‐26 25 2 50
21‐23 22 6 132
18‐20 19 9 171
15‐17 16 11 176
12‐14 13 8 104
9‐11 10 4 40
6‐8 7 3 21
3‐5 4 2 8
∑ = 48 ∑ = 789
Mediana
 Mediana este acel parametru care prin pozitia sa, se afla în mijlocul seriei
de date. Ea reprezinta punctul central al seriei, deoarece la stânga si la 
dreapta ei se situeaza câte 50% din totalitatea datelor. Mediana coincide 
cu media în cazul unei distributii teoretice normale si se îndeparteaza mult
de aceasta daca distributia este asimetrica. 
 Pentru a calcula mediana în cazul distributiei simple a datelor exista doua
situatii: 
1. Când n este impar locul medianei se stabileste astfel: 
Loc mediana = (n+1) / 2
2. Când n este par sunt adunate valorile din centrul seriei si se împart la doi. 
10
Mediana- cazul unui șir simplu
 De exemplu, șirul X = (4, 8, 6, 7, 9, 11, 9, 9, 12, 7) 
 Mai întâi datele sunt aranjate în ordine crescatoare sau descrescatoare.
 Astfel, X devine: (4, 6, 7, 7, 8, 9, 9, 9, 11, 12). Observam ca n este par (n=10). În
acest caz vom lua valorile care se gasesc pe locurile din mijlocul seriei, este vorba
de locurile 5 si 6. Cele doua valori care se gasesc pe aceste locuri sunt 8 si 9. 
Pentru a calcula mediana adunam cele doua valori gasite si împartim rezultatul la 
doi. Astfel, Me = (8+9) / 2 = 8,5 
 Daca am fi renuntat la un numar din sir, sa spunem 12, am fi obtinut un sir de 
noua numere (4, 6, 7, 7, 8, 9, 9, 9, 11). În acest caz, locul medianei este stabilit
dupa formula: (n+1) / 2, (deci, poziţia cinci). Respectiv, mediana
 Me = 8.
Mediana – cazul șirului de date
sub formă de tabel de frecvențe
unde: 
x0 ‐ limita inferioară a intervalului median (sau media între limita  
inferioară a intervalului median și limita superioară a intervalului 
precedent)
h ‐ mărimea intervalului median
N ‐ numarul total al cazurilor
nm ‐ frecvența intervalului median
ncpm ‐ frecvențele cumulative până la intervalul median
m
cpm
n
n
N
hxMe


 2
1
0
11
… exemplu
Intervalul Centrul i Frecventa (fi) Frecventa cumulata
30-32 31 1 48
27-29 28 2 47
24-26 25 2 45
21-23 22 6 43
18-20 19 9 37
15-17 16 11 28
12-14 13 8 17
9-11 10 4 9
6-8 7 3 5
3-5 4 2 2
6,16
11
17
2
148
35,14 


Me
… etapele procesului de calcul
 Stabilirea punctului mai jos și mai sus de care se situeaza câte 50% din cazuri
(N+1)/2. În cazul dat vom avea (48+1)/2=24,5; 
 Stabilirea intervalului care contine mediana. Se cauta în coloana frecventelor
cumulate intervalul care corespunde locului medianei (28). Pozitia 24 din sirul de 
date este ocupată de o valoare cuprinsa în intervalul 15‐17; 
 Se stabileste limita inferioara a intervalului care cuprinde mediana (15+14)/2 =
14,5 cât si frecventa datelor sale (11); 
 Se calculeaza frecventele cumulate, care preced clasa care contine mediana ‐ 17; 
 Se calculeaza marimea intervalului (h=3) ‐ care cuprinde valorile 15,16 si 17 sau 
altfel ‐ diferenta dintre limita maxima ((16+19)/2 =17,5) si cea minima a 
intervalului ce contine mediana este 3 (17,5 ‐14,5). 
12
Cuartilele și decilele
 Cuartilele sunt acele valori ale caracteristicii, care separă seria în patru părţi 
egale:
 cuartila inferioară, notată cu Q1, este mai mare sau egală de 25% din termenii 
seriei şi mai mică sau egală de 75% dintre ei;
 cuartila a doua Q2   și decila a cincea D5  coincide cu Me şi separă seria în două 
părţi egale; 
 cuartila superioară Q3  este mai mare sau egală de 75% din numărul termenilor şi 
mai mică sau egală de 25% din numărul lor.
 În cazul în care se calculează decilele, seria se divide în zece părţi egale folosind în
acest scop nouă decile (D1, D2 … D9).
Cuartilele și decilele
unde: 
Q1, Q3 – cuartila 1 (25%) și 3 (75%)
x0 este limita inferioară a intervalului cuartilei, 
decilei
h este mărimea intervalului cuartilei, decilei
N este numarul total al cazurilor
nq și nd frecvența intervalului cuartilei, decilei
ncpq și ncpd  ‐ frecvențele cumulative până la 
intervalul cuartilei, decilei
q
cpq
n
n
N
hxQ


 4
1
01
q
cpq
n
n
N
hxQ


 4
)1(
3
03
d
cpd
n
n
N
hxD


 10
)1(
1
01
13
… exemplu
Intervalul Centrul i Frecventa (fi) Frecventa cumulata
30-32 31 1 48
27-29 28 2 47
24-26 25 2 45
21-23 22 6 43
18-20 19 9 37
15-17 16 11 28
12-14 13 8 17
9-11 10 4 9
6-8 7 3 5
3-5 4 2 2
4,20
9
28
4
148
3
35,173 


Q
Modul
Modul este parametrul care corespunde celei mai mari frecvente, adica este valoarea
cea mai frecvent întâlnita. 
De exemplu, X = (4, 8, 6, 7, 9, 11, 9, 9, 12, 7). 
 Dupa ordonarea datelor obtinem X = (4, 6, 7, 7, 8, 9, 9, 9, 11, 12). Se observa ca
valoarea cea mai întâlnita este 9 (apare de trei ori). 
 Ca urmare modul pentru acest sir este: Mo = 9 
14
Modul - cazul sirului de date sub formă
de tabel de frecvente
 Pentru date grupate, se cauta intervalul care are cea mai mare frecvență. În
cazul de mai jos, acest interval este 15‐17,  în interiorul caruia se afla 11
valori. 
 Valoarea modala este egala cu valoarea plasată în centrul acestui interval, 
adică Mo = 16. 
Intervalul (i) Frecventa (f) Intervalul (i) Frecventa (f)
30-32 (31) 1 15-17 (16) 11
27-29 (28) 2 12-14 (13) 8
24-26 (25) 2 9-11 (10) 4
21-23 (22) 6 6-8 (9) 3
18-20 (19) 9 3-5 (4) 2
IV. Indicatori ai variației (dispersiei)
Principalii indicatori ai variaţiei sunt: 
1. Amplitudinea A
2. Abaterea medie pătratică (σ pentru populație și S pentru eșantion)
3. Dispersia (σ2 pentru populație și S2 pentru eșantion) 
4. Coeficientul de variaţie V.
1. AMPLITUDINEA:   A = (Xmax – Xmin) 
 Pentru a calcula amplitudinea sirului de date: 
 X = (7, 5, 10, 4, 8, 5, 8, 9, 7) vom avea: A =10 ‐ 4 = 6. 
15
Abaterea medie patratică:
cazul unui șir simplu
Unde: 
Xi sunt valorile individuale; 
X este media esantionului; 
µ este media populatiei
N, n este numarul de subiecti observati
(mărimea populației și respectiv, a eșantionului)
N
x
N
i
i

 1
2
)µ(

n
xx
S
n
i
i

 1
2
)(
Exemplu
De calculat S pentru urmatorul sir de date: 
X = (4, 6, 7, 9, 8, 5, 8, 3, 10, 6) X= 66/10 = 6,6 
X X-X (X-X) 2
4 -2,6 6,76
6 -0,6 0,36
7 0,4 0,16
9 2,4 5,76
8 1,4 1,96
5 -1,6 2,56
8 1,4 1,96
3 -3,6 12,96
10 3,4 11,56
6 -0,6 0,36
∑ (X‐X)2 = 44,40 
10,2
10
40,44
S
16
Abaterea medie patratică:
cazul seriilor cu frecvente
Unde: Xi sunt valorile individuale; 
X este media esantionului; 
µ este media populatiei
n reprezintă frecvențele observate





 k
i
i
i
i
i
n
n
k
xx
S
1
1
2
)(





 k
i
i
i
k
i
i
n
nx
1
1
2
)µ(

Exemplu
De calculat S pentru urmatoarele date: 
X = 16,4
∑ ni = 48
∑ ni *(X‐X)2 = 1709,9
97,5
48
9,1709
S
(i) Xi ni (Xi-X) (Xi-X)2 ni * (Xi-X)2
30-32 31 1 14,6 213,2 213,2
27-29 28 2 11,6 134,6 269,1
24-26 25 2 8,6 73,96 147,9
21-23 22 6 5,6 31,36 188,2
18-20 19 9 2,6 6,76 60,84
15-17 16 11 -0,4 0,16 1,76
12-14 13 8 -3,4 11,56 92,48
9-11 10 4 -6,4 40,96 163,8
6-8 7 3 -9,4 88,36 265,1
3-5 4 2 -12,4 153,8 307,5
17
 Este utilizat în scopul stabilirii gradului de omogenitate a unui esantion
 Unde: S este abaterea standard a esantionului studiat; X este media
eșantionului. 
 Spre exemplu, daca X = 11,40, iar S = 2,7, vom avea: 
 V = (2,7/11,4)*100 = 23,68% 
 Pentru cazul de mai sus V = (5,97/16,4)*100 = 36,4% 
Coeficientul de variație
100
x
S
V
Interpretarea coeficientului de variație
 daca V este cuprins între 0 si 15%, atunci  împrastierea datelor (variația) este
foarte mica, iar media este reprezentativă, deoarece eșantionul măsurat este
omogen; 
 daca valoarea lui este între 15 si 30%, variația datelor este mijlocie, media fiind
înca suficient de reprezentativa; 
 daca V depășește 30%, media nu este reprezentativă pentru eșantionul în cauză, 
fiind recomandata utilizarea medianei din cauza lipsei de omogenitate a grupului. 
18
V. Indicatori de asimetrie si boltire
 Exista situatii destul de frecvente când media nu corespunde cu mediana. Daca ele
ar coincide am vorbi despre o distributie complet simetrica, specifica unei
distributii normale teoretice. 
 Indicele de asimetrie (de oblicitate) ne arata în ce masura media se îndeparteaza
de mediana, si implicit, în ce masura curba de distributie normala a datelor se 
departeaza de mijloc, deplasându‐se spre stânga sau spre dreapta. Sunt
considerate distributii relativ normale cazurile în care acesti indicatori nu depasesc
±1,96 abateri medii patratice. 
 Vorbim despre o asimetrie pozitiva în situatia în care media este mai mare decât
mediana, caz în care indicele de asimetrie ia valori pozitive si apare o deplasare a 
datelor spre stânga. 
 Vorbim despre o asimetrie negativă în situatia în care media este mai mică decât
mediana, caz în care indicele de asimetrie ia valori negative si apare o deplasare a 
datelor spre dreapta. 
Reprezentarea grafică
fi fi fi
fmax fmax fmax
xi xi xi
x =Me=Mo Mo Me x x Me Mo
serie perfect simetrică asimetrie pozitivă asimetrie negativă
19
Asimetrie (skewness)
Formula de calcul a coeficientului de asimetrie Ca:
unde σ este abaterea medie patratică de sondaj
 Dacă Ca =0  serie simetrică.
 Dacă Ca>0  serie cu asimetrie pozitivă (deplasare spre stânga).
 Dacă Ca<0 serie cu asimetrie negativă (deplasare spre dreapta).
3
3
)(
n
xx
C i
a


Asimetrie (skewness): 3 cazuri
a d e
1 0 2
2 0 2
2 0 2
3 0 2
3 0 2
3 0 2
4 0 2
4 0 2
4 0 2
4 0 2
5 0 2
5 0 2
5 0 2
6 1 1
6 2 0
7 3 0
20
Asimetrie – lipsa (cazul a)
Ca = 0,000
Asimetrie pozitiva – spre stanga (cazul d)
(produse de lux)
Ca = 2,411
21
Asimetrie negativa – spre dreapta (cazul e)
(produse de larg consum consum – zaharul)
Ca = -2,082
Boltire (kurtosis)
 Un indice de aplatizare mare arată o repartiţie cu “cozi” mari
(sunt prezente categorii depărtate de medie), în timp ce un
indice de aplatizare mic arată o repartiţie “ascuţită” sau “boltită”
în care sunt prezente mai puţine categorii depărtate de medie.
 Formula de calcul este :
 unde σ este abaterea medie patratică de sondaj.
 În cazul unei repartiţii apropiate de repartiţia normală,
coeficientul de aplatizare este în jurul valorii 0.
 Cb >0, atunci distribuția are forma ascuțită iar dacă Cb <0 -
aplatizată
3
)(
4
4



n
xx
C i
b
22
Boltire: 2 cazuri
b c
1 1
1 2
1 3
1 3
1 3
1 3
1 3
5 3
6 3
9 3
9 3
9 3
9 3
9 3
9 4
9 5
Boltire: cazul a 2 segmente distincte
Cb = - 2,118
23
Boltire: cazul omogenitatii excesive
Cb = 3,913
Exemplu de calcul pentru tabele de frecvențe
Vânzări lunare
(mii lei)
Nr. comis
voiajori
41 – 50 10
51 – 60 30
61 – 70 50
71 – 80 50
81 – 90 70
91 – 100 60
101 – 110 30
Total 300
O mare companie de cosmetică are o
rețea dezvoltată de distribuție prin
comis voiajori. A fost extras un
eșantion de 300 de persoane din
rândurile acestora. Datele cu privire la
vânzările lunare sunt prezentate în
tabel. Caracterizaţi şi măsuraţi
asimetria și boltirea distribuţiei comis
voiajorilor.
Me = 86,67 mii lei
x = 80,17 mii lei
 = 16,10
24
Coeficientul de asimetrie se calculează în baza formulei:
Eroarea standard pentru asimetrie este
În SPSS în calitate de test de normalitate a asimetrie este considerat raportul
Adică în cazul nostru:
… asimetrie
254,0
07,16300
315797)(
33
3







n
nxx
C
ii
as
141,0300/6/6  nE a
 2;2/6/ nC as
 2;280,1141,0/254,0 
Coeficientul de boltire se calculează conform formulei:
Eroarea standard pentru boltire este
În SPSS în calitate de test de normalitate a boltirii este considerat raportul
Adică în cazul nostru:
Adică putem vorbi despre un nivel de aplatizare excesiv
… boltire
283,0300/24/24  nE b
 2;2/24/ nC b
 2;289,2283,0/819,0 
819,031806,2
07,16300
43620028
3
)(
44
4





n
nxx
C
ii
b

More Related Content

Featured

How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 

Featured (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

001 stat-descriptiva-2014-pdf

  • 1. 1 TEMATICA CURSULUI 1. Statistica descriptivă 2. Tabele de contingență 3. Testarea neparametrică 4. Testarea parametrică 5. Eșantionarea 6. Analiza varianței (ANOVA) 7. Corelarea și regresia 8. Analiza discriminantă TEMA 1: Statistica descriptivă 1. Tipurile de scale 2. Organizarea datelor 3. Tendința centrală 4. Variația (împrăștierea) datelor 5. Asimetria și boltirea distribuției
  • 2. 2 I. Patru tipuri de scale Tip scală Caracteristici Clasificări Ordonări Intervale egale Intervale proporționale Nominală X – – – Ordinală X X – – Interval X X X – Proporțională X X X X Exemple de întrebări din chestionar  Care este ocupația Dvs.? (nominală)  Ce apreciați la un calculator în primul, al doilea și al treilea rând? (ordinală)  Aveți vârsta de: □ 20-29 □ 30- 39 (interval) □ 40-49  Care este venitul Dvs. lunar (lei)? (proporțională)
  • 3. 3 II. Organizarea Datelor 2.1. Frecvența distribuției În cadrul unei cercetări au fost obținute următoarele valori ale variabilei studiate: X = (7, 5, 7, 8, 4, 9, 8, 10, 5, 3, 8, 10, 8, 7, 9, 6, 4, 7, 6, 1, 8, 6, 8, 7, 5, 7, 4, 7, 1, 9, 5, 8, 6, 7, 7). În total sunt 35 de date colectate. 2.1. … În cazul unei distributii simple a frecventei sunt necesari urmatorii pasi:  Se cauta valorile extreme din șirul de date (valoarea cea mai mare și cea mai mica);  Se scriu toate valorile cuprinse între cele doua extreme într-o ordine ascendentă (crescătoare) pe o coloană;  Se numără de câte ori apare fiecare valoare în șirul de date;  Se trec apoi în tabel, frecvențele de apariție a fiecărei valori.
  • 4. 4 2.1. …Tabelul de frecvențe Obținem: (N=35) Valoarea, X Frecvența, f 1 2 2 0 3 1 4 3 5 4 6 4 7 9 8 7 9 3 10 2 În cazul datelor nominale în prima coloană sunt incluse valorile calitative ale acestora (cuvinte, nu cifre) Exemplu: De ordonat pe intervale, rezultatele intervievării a 48 de subiecți. X = (17, 12, 8, 5, 10, 12, 23, 21, 22, 11, 14, 20, 18, 17, 15, 14, 21, 7, 10, 14, 18, 23, 25, 18, 17, 16, 29, 14, 19, 6, 27, 15, 17, 19, 14, 16, 10, 24, 17, 19, 15, 16, 12, 4, 22, 31, 19, 18). 2.2. Gruparea datelor pe intervale
  • 5. 5 1. Ordonăm datele (în ordine ascendentă  sau descendentă) X = (4, 5, 6, 7, 8, 10, 10, 10, 11, 12, 12, 12, 14, 14, 14, 14, 14, 15, 15, 15, 16, 16, 16, 17,17, 17, 17,17, 18, 18, 18, 18, 19, 19, 19, 19, 20, 21, 21, 22, 22,  23, 23, 24, 25, 27, 29, 31).  2. Notam valorile extreme (4 si 31)  3. Calculam diferenta dintre cele doua valori = 27  4. Stabilim marimea intervalului (h) și numărul de intervale (i),  astfel că h•i =27+1 . Rezolvare: De exemplu,        h=2 ne va oferi 28/2=14 intervale   h=3 ‐ respectiv 28/3=9 intervale și 1 rest (neacoperit) h=4 – respectiv 28/4=7 intervale h=5 – respectiv 28/5 = 5 intervale și 3 rest (neacoperit)   Dacă există resturi ‐ se adaugă un interval și calculăm supraacoperirea: h=3, deci 3‐restul =2, deci 2  puncte le repartizăm la extreme, conform  următoarelor opțiuni ale extremelor intervalelor: [2;31] sau [3;32] sau [4;33] h=5, deci 5 minus‐restul =2, deci iarăși 2  puncte le repartizăm la extreme și  obținem: [2;31] sau [3;32] sau [4;33] Rezolvare:
  • 6. 6 Rezolvare: Opțiuni de intervale pentru h=3 Extremități Intervale [2;31] [3;32] [4;33] 1 2‐4 3‐5 4‐6 2 5‐7 6‐8 7‐9 3 8‐10 9‐11 10‐12 4 11‐13 12‐14 13‐15 5 14‐16 15‐17 16‐18 6 17‐19 18‐20 19‐21 7 20‐22 21‐23 22‐24 8 23‐25 24‐26 25‐27 9 26‐28 27‐29 28‐30 10 29‐31 30‐32 31‐33  Trei, cinci și zece constitue marimea cea mai des întâlnită a intervalelor.  Dacă pentru analiză sunt necesare date ”scale”, putem transforma intervalele înlocuind categoriile - cu cifre care reprezintă media intervalului.  Este bine dacă primul interval începe, cu o valoare multiplu de h ales. De exemplu, daca 22 este cel mai mic număr, iar marimea intervalului este 3, atunci vom începe cu valoarea 21 deoarece este multiplu de trei (în exemplul nostru - opțiunea din coloana 2).  Pentru h= 5 în afară de intervalul {1-5, 6-10, etc.} se mai recomandă și {3-7, 8-12, etc.} care asigură mijlocul intervalului multiplu de 5. Intervale: concluzii și sugestii finale
  • 7. 7 Exemplu: soluția – coloana 2 Intervalul (I) Mijlocul clasei Frecventa (f) 30-32 31 1 27-29 28 2 24-26 25 2 21-23 22 6 18-20 19 9 15-17 16 11 12-14 13 8 9-11 10 4 6-8 7 3 3-5 4 2 III. Indicatori ai tendinței centrale • Media • Mediana • Modul
  • 8. 8 Media  Media este un indicator care caracterizeaza un esantion (o populatie)  din punctul de vedere al unei caracteristici studiate. Exista mai multe notări pentru medie: M si X reprezinta media unui eșantion, iar µ (miu)  este media unei colectivități generale (populații).   Media aritmetică a unui sir de date se calculează astfel:  X = ∑ X / N   Pentru sirul de date: X = (4, 8, 6, 7, 9, 11, 9, 9, 12, 7)   Media X = (4+8+6+7+9+11+9+9+12+7) / 10 = 82 / 10 = 8,2.   În cazul în care sirul de date este prezentat într‐un tabel de frecvențe se  aplică formula mediei ponderate:  ∑fi * Xi X =   ‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐ ∑fi  Unde: fi reprezinta frecvența grupată, iar Xi ‐ centrul intervalului (exemplu  – slide‐ul următor).  …
  • 9. 9 ∑fi = 48 ∑ =Xi*fi= 789 X = 789 / 48 = 16,4 … exemplu (cazul unui tabel de frecvențe) Intervalul (i) Centrul (Xi) Frecventa (fi) Xi * fi 30‐32 31 1 31 27‐29 28 2 56 24‐26 25 2 50 21‐23 22 6 132 18‐20 19 9 171 15‐17 16 11 176 12‐14 13 8 104 9‐11 10 4 40 6‐8 7 3 21 3‐5 4 2 8 ∑ = 48 ∑ = 789 Mediana  Mediana este acel parametru care prin pozitia sa, se afla în mijlocul seriei de date. Ea reprezinta punctul central al seriei, deoarece la stânga si la  dreapta ei se situeaza câte 50% din totalitatea datelor. Mediana coincide  cu media în cazul unei distributii teoretice normale si se îndeparteaza mult de aceasta daca distributia este asimetrica.   Pentru a calcula mediana în cazul distributiei simple a datelor exista doua situatii:  1. Când n este impar locul medianei se stabileste astfel:  Loc mediana = (n+1) / 2 2. Când n este par sunt adunate valorile din centrul seriei si se împart la doi. 
  • 10. 10 Mediana- cazul unui șir simplu  De exemplu, șirul X = (4, 8, 6, 7, 9, 11, 9, 9, 12, 7)   Mai întâi datele sunt aranjate în ordine crescatoare sau descrescatoare.  Astfel, X devine: (4, 6, 7, 7, 8, 9, 9, 9, 11, 12). Observam ca n este par (n=10). În acest caz vom lua valorile care se gasesc pe locurile din mijlocul seriei, este vorba de locurile 5 si 6. Cele doua valori care se gasesc pe aceste locuri sunt 8 si 9.  Pentru a calcula mediana adunam cele doua valori gasite si împartim rezultatul la  doi. Astfel, Me = (8+9) / 2 = 8,5   Daca am fi renuntat la un numar din sir, sa spunem 12, am fi obtinut un sir de  noua numere (4, 6, 7, 7, 8, 9, 9, 9, 11). În acest caz, locul medianei este stabilit dupa formula: (n+1) / 2, (deci, poziţia cinci). Respectiv, mediana  Me = 8. Mediana – cazul șirului de date sub formă de tabel de frecvențe unde:  x0 ‐ limita inferioară a intervalului median (sau media între limita   inferioară a intervalului median și limita superioară a intervalului  precedent) h ‐ mărimea intervalului median N ‐ numarul total al cazurilor nm ‐ frecvența intervalului median ncpm ‐ frecvențele cumulative până la intervalul median m cpm n n N hxMe    2 1 0
  • 11. 11 … exemplu Intervalul Centrul i Frecventa (fi) Frecventa cumulata 30-32 31 1 48 27-29 28 2 47 24-26 25 2 45 21-23 22 6 43 18-20 19 9 37 15-17 16 11 28 12-14 13 8 17 9-11 10 4 9 6-8 7 3 5 3-5 4 2 2 6,16 11 17 2 148 35,14    Me … etapele procesului de calcul  Stabilirea punctului mai jos și mai sus de care se situeaza câte 50% din cazuri (N+1)/2. În cazul dat vom avea (48+1)/2=24,5;   Stabilirea intervalului care contine mediana. Se cauta în coloana frecventelor cumulate intervalul care corespunde locului medianei (28). Pozitia 24 din sirul de  date este ocupată de o valoare cuprinsa în intervalul 15‐17;   Se stabileste limita inferioara a intervalului care cuprinde mediana (15+14)/2 = 14,5 cât si frecventa datelor sale (11);   Se calculeaza frecventele cumulate, care preced clasa care contine mediana ‐ 17;   Se calculeaza marimea intervalului (h=3) ‐ care cuprinde valorile 15,16 si 17 sau  altfel ‐ diferenta dintre limita maxima ((16+19)/2 =17,5) si cea minima a  intervalului ce contine mediana este 3 (17,5 ‐14,5). 
  • 12. 12 Cuartilele și decilele  Cuartilele sunt acele valori ale caracteristicii, care separă seria în patru părţi  egale:  cuartila inferioară, notată cu Q1, este mai mare sau egală de 25% din termenii  seriei şi mai mică sau egală de 75% dintre ei;  cuartila a doua Q2   și decila a cincea D5  coincide cu Me şi separă seria în două  părţi egale;   cuartila superioară Q3  este mai mare sau egală de 75% din numărul termenilor şi  mai mică sau egală de 25% din numărul lor.  În cazul în care se calculează decilele, seria se divide în zece părţi egale folosind în acest scop nouă decile (D1, D2 … D9). Cuartilele și decilele unde:  Q1, Q3 – cuartila 1 (25%) și 3 (75%) x0 este limita inferioară a intervalului cuartilei,  decilei h este mărimea intervalului cuartilei, decilei N este numarul total al cazurilor nq și nd frecvența intervalului cuartilei, decilei ncpq și ncpd  ‐ frecvențele cumulative până la  intervalul cuartilei, decilei q cpq n n N hxQ    4 1 01 q cpq n n N hxQ    4 )1( 3 03 d cpd n n N hxD    10 )1( 1 01
  • 13. 13 … exemplu Intervalul Centrul i Frecventa (fi) Frecventa cumulata 30-32 31 1 48 27-29 28 2 47 24-26 25 2 45 21-23 22 6 43 18-20 19 9 37 15-17 16 11 28 12-14 13 8 17 9-11 10 4 9 6-8 7 3 5 3-5 4 2 2 4,20 9 28 4 148 3 35,173    Q Modul Modul este parametrul care corespunde celei mai mari frecvente, adica este valoarea cea mai frecvent întâlnita.  De exemplu, X = (4, 8, 6, 7, 9, 11, 9, 9, 12, 7).   Dupa ordonarea datelor obtinem X = (4, 6, 7, 7, 8, 9, 9, 9, 11, 12). Se observa ca valoarea cea mai întâlnita este 9 (apare de trei ori).   Ca urmare modul pentru acest sir este: Mo = 9 
  • 14. 14 Modul - cazul sirului de date sub formă de tabel de frecvente  Pentru date grupate, se cauta intervalul care are cea mai mare frecvență. În cazul de mai jos, acest interval este 15‐17,  în interiorul caruia se afla 11 valori.   Valoarea modala este egala cu valoarea plasată în centrul acestui interval,  adică Mo = 16.  Intervalul (i) Frecventa (f) Intervalul (i) Frecventa (f) 30-32 (31) 1 15-17 (16) 11 27-29 (28) 2 12-14 (13) 8 24-26 (25) 2 9-11 (10) 4 21-23 (22) 6 6-8 (9) 3 18-20 (19) 9 3-5 (4) 2 IV. Indicatori ai variației (dispersiei) Principalii indicatori ai variaţiei sunt:  1. Amplitudinea A 2. Abaterea medie pătratică (σ pentru populație și S pentru eșantion) 3. Dispersia (σ2 pentru populație și S2 pentru eșantion)  4. Coeficientul de variaţie V. 1. AMPLITUDINEA:   A = (Xmax – Xmin)   Pentru a calcula amplitudinea sirului de date:   X = (7, 5, 10, 4, 8, 5, 8, 9, 7) vom avea: A =10 ‐ 4 = 6. 
  • 15. 15 Abaterea medie patratică: cazul unui șir simplu Unde:  Xi sunt valorile individuale;  X este media esantionului;  µ este media populatiei N, n este numarul de subiecti observati (mărimea populației și respectiv, a eșantionului) N x N i i   1 2 )µ(  n xx S n i i   1 2 )( Exemplu De calculat S pentru urmatorul sir de date:  X = (4, 6, 7, 9, 8, 5, 8, 3, 10, 6) X= 66/10 = 6,6  X X-X (X-X) 2 4 -2,6 6,76 6 -0,6 0,36 7 0,4 0,16 9 2,4 5,76 8 1,4 1,96 5 -1,6 2,56 8 1,4 1,96 3 -3,6 12,96 10 3,4 11,56 6 -0,6 0,36 ∑ (X‐X)2 = 44,40  10,2 10 40,44 S
  • 16. 16 Abaterea medie patratică: cazul seriilor cu frecvente Unde: Xi sunt valorile individuale;  X este media esantionului;  µ este media populatiei n reprezintă frecvențele observate       k i i i i i n n k xx S 1 1 2 )(       k i i i k i i n nx 1 1 2 )µ(  Exemplu De calculat S pentru urmatoarele date:  X = 16,4 ∑ ni = 48 ∑ ni *(X‐X)2 = 1709,9 97,5 48 9,1709 S (i) Xi ni (Xi-X) (Xi-X)2 ni * (Xi-X)2 30-32 31 1 14,6 213,2 213,2 27-29 28 2 11,6 134,6 269,1 24-26 25 2 8,6 73,96 147,9 21-23 22 6 5,6 31,36 188,2 18-20 19 9 2,6 6,76 60,84 15-17 16 11 -0,4 0,16 1,76 12-14 13 8 -3,4 11,56 92,48 9-11 10 4 -6,4 40,96 163,8 6-8 7 3 -9,4 88,36 265,1 3-5 4 2 -12,4 153,8 307,5
  • 17. 17  Este utilizat în scopul stabilirii gradului de omogenitate a unui esantion  Unde: S este abaterea standard a esantionului studiat; X este media eșantionului.   Spre exemplu, daca X = 11,40, iar S = 2,7, vom avea:   V = (2,7/11,4)*100 = 23,68%   Pentru cazul de mai sus V = (5,97/16,4)*100 = 36,4%  Coeficientul de variație 100 x S V Interpretarea coeficientului de variație  daca V este cuprins între 0 si 15%, atunci  împrastierea datelor (variația) este foarte mica, iar media este reprezentativă, deoarece eșantionul măsurat este omogen;   daca valoarea lui este între 15 si 30%, variația datelor este mijlocie, media fiind înca suficient de reprezentativa;   daca V depășește 30%, media nu este reprezentativă pentru eșantionul în cauză,  fiind recomandata utilizarea medianei din cauza lipsei de omogenitate a grupului. 
  • 18. 18 V. Indicatori de asimetrie si boltire  Exista situatii destul de frecvente când media nu corespunde cu mediana. Daca ele ar coincide am vorbi despre o distributie complet simetrica, specifica unei distributii normale teoretice.   Indicele de asimetrie (de oblicitate) ne arata în ce masura media se îndeparteaza de mediana, si implicit, în ce masura curba de distributie normala a datelor se  departeaza de mijloc, deplasându‐se spre stânga sau spre dreapta. Sunt considerate distributii relativ normale cazurile în care acesti indicatori nu depasesc ±1,96 abateri medii patratice.   Vorbim despre o asimetrie pozitiva în situatia în care media este mai mare decât mediana, caz în care indicele de asimetrie ia valori pozitive si apare o deplasare a  datelor spre stânga.   Vorbim despre o asimetrie negativă în situatia în care media este mai mică decât mediana, caz în care indicele de asimetrie ia valori negative si apare o deplasare a  datelor spre dreapta.  Reprezentarea grafică fi fi fi fmax fmax fmax xi xi xi x =Me=Mo Mo Me x x Me Mo serie perfect simetrică asimetrie pozitivă asimetrie negativă
  • 19. 19 Asimetrie (skewness) Formula de calcul a coeficientului de asimetrie Ca: unde σ este abaterea medie patratică de sondaj  Dacă Ca =0  serie simetrică.  Dacă Ca>0  serie cu asimetrie pozitivă (deplasare spre stânga).  Dacă Ca<0 serie cu asimetrie negativă (deplasare spre dreapta). 3 3 )( n xx C i a   Asimetrie (skewness): 3 cazuri a d e 1 0 2 2 0 2 2 0 2 3 0 2 3 0 2 3 0 2 4 0 2 4 0 2 4 0 2 4 0 2 5 0 2 5 0 2 5 0 2 6 1 1 6 2 0 7 3 0
  • 20. 20 Asimetrie – lipsa (cazul a) Ca = 0,000 Asimetrie pozitiva – spre stanga (cazul d) (produse de lux) Ca = 2,411
  • 21. 21 Asimetrie negativa – spre dreapta (cazul e) (produse de larg consum consum – zaharul) Ca = -2,082 Boltire (kurtosis)  Un indice de aplatizare mare arată o repartiţie cu “cozi” mari (sunt prezente categorii depărtate de medie), în timp ce un indice de aplatizare mic arată o repartiţie “ascuţită” sau “boltită” în care sunt prezente mai puţine categorii depărtate de medie.  Formula de calcul este :  unde σ este abaterea medie patratică de sondaj.  În cazul unei repartiţii apropiate de repartiţia normală, coeficientul de aplatizare este în jurul valorii 0.  Cb >0, atunci distribuția are forma ascuțită iar dacă Cb <0 - aplatizată 3 )( 4 4    n xx C i b
  • 22. 22 Boltire: 2 cazuri b c 1 1 1 2 1 3 1 3 1 3 1 3 1 3 5 3 6 3 9 3 9 3 9 3 9 3 9 3 9 4 9 5 Boltire: cazul a 2 segmente distincte Cb = - 2,118
  • 23. 23 Boltire: cazul omogenitatii excesive Cb = 3,913 Exemplu de calcul pentru tabele de frecvențe Vânzări lunare (mii lei) Nr. comis voiajori 41 – 50 10 51 – 60 30 61 – 70 50 71 – 80 50 81 – 90 70 91 – 100 60 101 – 110 30 Total 300 O mare companie de cosmetică are o rețea dezvoltată de distribuție prin comis voiajori. A fost extras un eșantion de 300 de persoane din rândurile acestora. Datele cu privire la vânzările lunare sunt prezentate în tabel. Caracterizaţi şi măsuraţi asimetria și boltirea distribuţiei comis voiajorilor. Me = 86,67 mii lei x = 80,17 mii lei  = 16,10
  • 24. 24 Coeficientul de asimetrie se calculează în baza formulei: Eroarea standard pentru asimetrie este În SPSS în calitate de test de normalitate a asimetrie este considerat raportul Adică în cazul nostru: … asimetrie 254,0 07,16300 315797)( 33 3        n nxx C ii as 141,0300/6/6  nE a  2;2/6/ nC as  2;280,1141,0/254,0  Coeficientul de boltire se calculează conform formulei: Eroarea standard pentru boltire este În SPSS în calitate de test de normalitate a boltirii este considerat raportul Adică în cazul nostru: Adică putem vorbi despre un nivel de aplatizare excesiv … boltire 283,0300/24/24  nE b  2;2/24/ nC b  2;289,2283,0/819,0  819,031806,2 07,16300 43620028 3 )( 44 4      n nxx C ii b