SlideShare a Scribd company logo
1 of 10
Download to read offline
Bibliografie | 1
13 STATISTICĂ DESCRIPTIVĂ (I)
Noţiuni prezentate:
Statistică descriptivă
 Calculul indicatorilor statistici
Statistica matematică este cea mai adecvată şi exactă metodă de
interpretare a fenomenelor de masă, cu posibile legături cauzale,
multifactoriale, unde legitatea se manifestă şi se poate observa prin
rezultanta unui număr mare de fapte luate în studiu.
Într-o primă formă extragerea de informaţii din date constă în
prezentarea descriptivă deci calculul indicatorilor statistici cât şi realizarea
distribuției de frecvenţă [i].
Există două tipuri de variabile (date) ce definesc natura informaţiei:
cantitative şi respectiv, calitative. Datele de tip calitativ mai sunt cunoscute şi
cu numele de variabile categoriale sau atributive. Valorile acestora variază ca
sortiment, categorie sau clasă, nu după magnitudine sau mărime. Practic, nu
putem realiza o ordonare între valorile existente (de ex. culoarea unui
produs) [ii].
Datele sau variabilele de tip cantitativ se caracterizează prin variaţie
în magnitudine, de la element la element. Astfel, acestea pot fi ordonate, încât
relaţii de genul mai mic sau mai mare au sens în acest context. După fineţea
pasului de evaluare a relaţiei mai mare sau mai mic, putem împărţi variabilele
cantitative în discrete şi continue.
O variabilă discretă poate lua valori numărabile sau izolate, cum ar fi:
numărul de note de 10 la examenul de admitere, sau numărul de nou născuţi
într-o zi la o maternitate.
O variabilă de tip continuu poate lua orice valoare dintr-un interval
definit.
Calculul indicatorilor statistici
În studiul distribuţiei de frecvenţe a caracteristicii unei populaţii se
observă tendințe cu două aspecte: 1 – de localizare (de poziţie), 2 – de
împrăştiere (de variaţie) [5, 9, iii, iv, v].
Indicatori de localizare
Media aritmetică (simplă)
2 | Bibliografie
Este indicatorul de bază al tendinţei de localizare. Considerăm şirul
de date x1, x2, … ,xn. Media aritmetică se notează cu X sau M(x):
n
x
n
x
x
x
X
n
i
i
n






 1
2
1 ...
Media aritmetică ponderată
Dacă avem frecvenţele absolute a1, a2, … , am corespunzătoare valorilor
x1, x2, …., xm), atunci media se poate calcula conform formulei:
n
x
a
a
a
a
x
a
x
a
x
a
X
m
j
j
j
m
m
m














1
2
1
2
2
1
1
...
.....
Media aritmetică ajustată
În situaţia în care avem posibile valori eronate apropiate de extremele
minimă respectiv maximă, este indicat să se folosească media aritmetică
ajustată (trimmean). Aceasta se va calcula folosind din datele iniţiale doar un
procent de 90% sau 80% de exemplu. Practic valorile extreme vor fi eliminate
în proporţia dorită. Dacă alegem să lucrăm cu 90% din volumul de date,
atunci 5% reprezentând valorile cele mai mici respectiv 5% reprezentând
valorile cele mai mari vor fi eliminate din calcul.
Media armonică
Se utilizează în calculul valorii medii pentru mai multe mărimi
relative (este mai potrivită decât valoarea medie simplă). Valoarea reciprocă
(inversă) a mediei armonice este media reciprocelor valorilor din lot. Pentru
şirul de valori x1, x2, x3, … , xn se notează cu MH media armonică.
Formula de calcul este:




n
i i
H x
n
M 1
1
1
1
,






 n
i i
n
H
x
n
n
x
x
x
M
1
2
1
1
1
...
1
1
1
,
cu condiţia 0

i
x .
Considerând frecvenţele absolute notate ai obţinem următoarea
formulă de calcul a mediei armonice ponderate:





 m
j j
j
n
i i
H
x
a
n
x
n
M
1
1
1
.
Media cronologică
Bibliografie | 3
Este utilizată pentru seriile care au variaţii în timp (lunare, semestriale
sau anuale). Formula de calcul:
1
2
...
2 1
2
1







n
X
X
X
X
M
n
n
C .
Media geometrică
Se utilizează în calculul coeficienţilor de creştere medie a valorilor
unei serii cronologice logaritmice, sau a seriilor cu creştere progresivă (cu
raţie crescătoare). De exemplu, se foloseşte în calculul ritmului mediu de
creştere anuală sau în dinamica sporului natural al populaţiei.
Media geometrică a unui şir de valori x1, x2, x3, … , xn se notează de obicei
cu MG şi se calculează cu formula:
n
i
n
i
n
n
G x
x
x
x
x
M 







1
3
2
1 ... .
Media pătratică
Fie şirul de valori x1, x2, x3, …, xn. Media pătratică se notează MP şi se
calculează cu formula (radical din media pătratelor valorilor):
2
1
2
X
n
x
M
n
i
i
P 



.
Mediana
Notăm valorile unui şir cu x1, x2, x3, …, xn. Suplimentar, acest şir
trebuie să fie ordonat. Valoarea ce ocupă locul central (este independentă de
tipul de ordonare crescătoare sau descrescătoare) se numeşte mediană şi se
notează cu Me. Dacă şirul are un număr impar de valori, adică n = 2k+1,
avem :
2
1
1 
 
 n
k x
x
Me . Dacă şirul are un număr par de valori, deci n=2k,
calculăm mediana cu formula: 2
/
)
( 1


 k
k x
x
Me . Mediana este un
indicator robust şi este mai puţin influenţată de valorile extreme (asemănător
mediei aritmetice ajustate) decât media şi este mai stabilă la fluctuaţiile de
selecţie.
Modul (dominanta)
Fie şirul format din elementele x1, x2, x3, …, xn. Valoarea xi
corespunzătoare frecvenţei celei mai mari poartă numele de mod. Repartiţia
poate avea mai multe maxime, dar de obicei doar unul este global, celelalte
fiind locale. Dacă există un singur maxim repartiţia se numeşte unimodală,
cu două maxime se va numi bimodală, iar cu mai multe maxime este numită
polimodală sau multimodală.
4 | Bibliografie
Sunt situaţii în care datele sunt grupate pe clase. În acest caz intervalul
corespunzător frecvenţei maxime se numeşte interval modal sau clasă
modală. Modul se notează cu Mo.
Valoarea centrală
Reprezintă media extremelor şirului de date studiat:
2
min
max X
X
Xc

 . Dacă valorile din şirul de date sunt grupate pe clase,
formula de calcul devine:
2
.
sup
.
inf clasa
clasa X
X
Xc

 .
Este uşor de observat că valoarea centrală este dependentă de extreme
şi nu de valorile tuturor datelor.
Observație: Unitatea de măsură a indicatorilor de localizare este
aceeași cu a elementelor componente a eșantionului sau lotului studiat.
Indicatori de variaţie
Categoria de indicatori de dispersie (variaţie) reprezintă o evaluare
numerică a împrăştierii datelor. Variaţia luată în considerare se poate raporta
chiar la valoarea medie calculată.
Dispersia (varianţa)
Dispersia sau varianţa reprezintă o mediere a pătratelor distanţelor
faţă de valoarea medie a şirului de date. Se notează cu 2
 sau D[x]. Are
următoarea formulă de calcul (pentru volumul n al eşantionului de valori
mari, n>30):
       
n
X
x
n
X
x
X
x
X
x
n
i
i
n










 1
2
2
2
2
2
1
2 .....
 .
Dacă avem valorile x1, x2, x3, …, xn cu frecvenţele absolute a1, a2, …,
am, atunci formula de calcul devine:
 
 










m
i
i
i
m
i
i
i
X
x
f
n
X
x
a
1
2
1
2
2
 .
Făcând apel la noțiunile de statistică observăm că numărul de valori ce
compun setul de date, are influență asupra formulelor de calcul a
indicatorilor statistici. Dacă volumul eşantionului este mai mic decât 30,
atunci se aplică o corecţie asupra numitorului formulei. În acest caz ajustarea
este în sensul că nu se împarte la n ci la n-1 (numit şi numărul gradelor de
libertate).
   
1
1
1
2
1
2
1
2
2











 

n
n
n
n
n
X
x
n
X
x
n
i
i
n
i
i
estimat 
 .
Bibliografie | 5
Abaterea pătratică medie (deviaţia standard)
Prin extragerea rădăcinii pătrate din dispersie se obţine abaterea
pătratică medie. Astfel, deviaţia standard şi indicatorii de localizare se
exprimă cu aceleaşi unităţi de măsură. Formula:
 
n
X
x
x
D
n
i
i




 1
2
]
[  .
Ţinând cont de frecvenţele absolute avem:  





m
i
i
i
X
x
n
a
1
2
 .
Putem exprima şi astfel: 2
2
2
2
2
2 X
M
X
X
M P
P 





 .
Pentru eşantioane mici se aplică formula de estimare prin împărţire
la (n-1) în loc de n.
Abaterea individuală
Reprezintă o măsură caracteristică fiecărei valori din setul de date. Se
calculează ca diferență față de valoarea medie. Se poate calcula în formă
absolută sau relativă conform formulelor:
X
x
d i
i 
 respectiv %
100
% 


X
X
x
d i
i
Amplitudinea
Este definită ca diferenţa valorilor extreme ale şirului de date studiat
şi se notează cu W sau A (în majoritatea cazurilor): W = A = Xmax - Xmin .
În cazul grupării datelor pe clase se defineşte şi noţiunea de
amplitudine a clasei, notată cu wi (corespunzător clasei i). Această mărime
este egală cu diferenţa dintre valorile extreme ale clasei respective. Cu cât este
mai mică valoarea sa cu atât lotul este mai omogen.
Aspecte negative ale amplitudinii:
 depinde de eşantion, având variaţii pentru fiecare eşantion în parte,
 nu ţine seama de tipul repartiţie.
Intervalul intercuartilic
Cuartilele (întâlnit și cu numele quartile sau cvartile) împart datele în
4 clase de frecvenţe egale cu 25%. Astfel, sunt necesare 3 valori Q1, Q2, Q3
care reprezintă cuartilele. Suma frecvenţelor până la limita determinată de
Q1 este egală cu suma frecvenţelor dintre Q1 şi Q2, de asemenea egală cu
suma frecvenţelor dintre Q2 şi Q3 şi în final, egală cu suma frecvenţelor de
după Q3.
Intervalul cuartilic se defineşte ca fiind diferenţa dintre Q3 şi Q1
(ultima şi prima cuartilă). Q1 se numeşte cuartilă inferioară sau mică, Q3 se
numeşte cuartila superioară sau mare. Prin urmare, intervalul intercuartilic
va fi: Iq = Q3 – Q1.
6 | Bibliografie
Observaţie: Cuartila Q2 este tocmai mediana Me.
Se defineşte coeficientul de variaţie intercuartilică ca fiind raportul:
e
q
M
I
Q
Q
Q
q 


2
1
3
.
Coeficientul de variaţie
Abaterea pătratică medie se interpretează prin compararea cu media
valorilor studiate. Dacă avem o medie de 100 şi o abatere pătratică standard
5

 , atunci avem mici variaţii, dar dacă avem aceeaşi abatere la o medie de
10, atunci variaţia este foarte mare. În concluzie, este necesară raportarea
abaterii pătratice la valoarea mediei, pentru a exprima corect împrăştierea
datelor. Se defineşte coeficientul de variaţie:
X


Cx .
Acest coeficient este o măsură relativă a variaţiei datelor faţă de
medie. Astfel, indiferent de medie, seturile de date, chiar de natură diferită,
pot fi comparate folosind coeficientul de variaţie.
Asimetrie (skewness)
O distribuţie este considerată simetrică, dacă de o parte şi de alta a
mediei, frecvenţele au aceleaşi valori. Pentru a obţine o măsură a asimetriei,
statisticianul englez Karl Pearson a definit în primă etapă indicatorul relativ
de asimetrie (acest indicator este adimensional, fiind astfel util pentru a
compara distribuţiile între ele):

 Mo
Sk

 . Formula actuală de calcul (de
estimare deoarece lucrăm cu un eşantion din întreaga populaţie) este:
n
s
x
Sk
n
i
i









 

1
3
X
pentru n mare, respectiv









 





n
i
i
s
x
n
n
n
Sk
1
3
X
)
2
(
)
1
(
, pentru n de valori mici (s este deviația
standard a eşantionului).
Cazuri posibile:
1. Dacă Sk>0, avem asimetrie pozitivă sau asimetrie la dreapta, Mo

X
.
2. Dacă Sk<0, avem asimetrie negativă sau asimetrie la stânga, Mo

X
3. Dacă Sk=0, avem simetrie (distribuţia normală are asimetria 0).
În general, o distribuţie care are valoarea Sk diferită de 0 cu mai mult
de ±1, denotă o diferenţă semnificativă faţă de distribuţia normală.
Bibliografie | 7
În limba engleză cuvântul consacrat este skewness, folosit în
programele de statistică.
Boltirea (excesul, kurtosis)
Acest indicator compară distribuţia dată cu cea normală sau
Gauss’iană. Statisticianul englez Karl Pearson a definit de asemenea
coeficientul de boltire:
  4
4
2
2
4
2


m
m
m

 (m4 este momentul centrat de ordin
4 în raport cu media). Pentru o distribuţie normală 3
2 
normal
 .
Pentru descrierea boltirii se poate folosi şi coeficientul Fisher, ce
măsoară excesul faţă de distribuţia normală. Acesta se calculează cu formula:
3
3 4
4
2
2 






 , echivalentă cu:
 
3
X
4
1
4
2 





s
n
x
n
i
i
 (pentru eşantion
de volum mare). La valori mici ale volumului lotului pentru estimare se
foloseşte formula:
)
3
(
)
2
(
)
1
(
3
X
)
3
(
)
2
(
)
1
(
)
1
( 2
1
4
2













 








 
 n
n
n
s
x
n
n
n
n
n n
i
i
 .
Avem următoarele modalităţi de caracterizare a distribuţiilor:
Mezocurtică  0
,
3 2
2 
 
 .
Leptocurtică  0
,
3 2
2 
 
 .
Platicurtică  0
,
3 2
2 
 
 .
(Forma distribuţiilor este sugerată de etimologia cuvintelor: ,,platus” în
limba greacă semnifică ,,lat”, ,,leptos” – ,,subţire”, ,,mesos” - ,,mijlociu”,
,,kurtosis” – ,,exces, cocoaşă”).
Tabelul 13-1. Metode de calcul a indicatorilor statistici în Microsoft Excel
Nr Indicator statistic Funcţie Excel Descriere / formula
1. Media aritmetică Average()
Averageif()
Averageifs()
Media setului selectat
Media selecţiei pentru celulele ce
îndeplinesc o singură condiţie.
Media selecţiei pentru condiţii multiple.
2. Media aritmetică
ajustată.
Trimmean(domeniu,
procent)
Se calculează media aritmetică eliminând
din setul de date procentul specificat din
valorile extreme atât minimă cât şi
maximă. Vor rămâne : (100% − 2 ∙
𝑝𝑟𝑜𝑐𝑒𝑛𝑡) ∙ 𝑁𝑟. 𝑑𝑎𝑡𝑒. 𝑖𝑛𝑖𝑡
8 | Bibliografie
Nr Indicator statistic Funcţie Excel Descriere / formula
3. Media armonică Harmean()



n
i i
H
x
n
M
1
1
4. Media
cronologică
Veţi propune o metodă
de calcul.
1
2
1
...
2
2
1







n
n
X
n
X
X
X
C
M
5. Media
geometrică
Geomean()
n
i
n
i
G x
M 


1
6. Media pătratică Veţi propune o metodă
de calcul.
2
1
2
x
n
x
M
n
i
i
P 



7. Mediana Median() Valoarea de mijloc a şirului ordonat
8. Valoarea modală
(modul)
Mode() sau
Mode.sngl()
Valoarea de frecvenţă maximă
9. Dispersia
(pt. populaţie)
Varp() sau
Var.p()  
n
x
x
m
i
i



 1
2
2

10. Dispersia
(pt. eşantion)
Var() sau
Var.s()  
1
1
2
2





n
x
x
m
i
i

11. Deviaţia standard
(pt. populaţie)
Stdevp() sau
Stdev.p()  
n
x
x
m
i
i



 1
2

12. Deviaţia standard
(pt. eşantion)
Stdev() sau
Stedv.s()  
1
1
2





n
x
x
m
i
i

13. Calcul cuartile Quartile (domeniu,
valoare)
Valoarea indică numărul cuartilei
calculate:
0 – minimul ; 1 – Q1 ; 2 – Q2 ; 3 – Q3 ; 4 -
maximul
14. Intervalul
cuartilic
Veţi calcula diferenţa. IQ = Q3 – Q1
15. Asimetria Skew()









 





n
i
i
s
x
x
n
n
n
Sk
1
3
)
2
(
)
1
(
16. Boltirea Kurt()









)
3
(
)
2
(
)
1
(
)
1
(
2
n
n
n
n
n

)
3
(
)
2
(
)
1
(
3 2
1
4













 


n
n
n
s
x
x
n
i
i
Bibliografie | 9
Figura 13-1. Indicatori statistici calculați prin statistica descriptivă.
O metodă rapidă pentru determinarea indicatorilor statistici
principali (lipsesc: media geometrică, armonică, cronologică, pătratică,
ajustată, cuartilele) constă în lansarea procedurii statisticii descriptive
(Descriptive Statistics) din Analiza datelor – rezultatele sunt prezentate în
figura alăturată [5, 9].
EXERCIŢII
Fișierul Excel de lucru conține coloanele de date numerice de tip
continuu: inaltime, IMC, greutate. Datele de tip categorial sunt: mediu rezidenta,
stare civila, ocupatie.
1. Calculaţi pentru coloanele Înălţime, IMC, Greutate, Talie indicatorii
statistici prezentaţi folosind formulele de calcul şi apoi folosind
opţiunea Descriptive Statistics.
2. Aranjaţi în ordine crescătoare valorile mediilor calculate:
P
G
H M
X
M
M ,
,
, .
3. Calculaţi pentru coloanele Înălţime, IMC, Greutate, Talie media
persoanelor din mediul rural, apoi din mediul rural şi căsătorite apoi
din mediul urban, căsătorite şi pensionate folosind averageifs().
Observaţii:
În calculul mediei geometrice (versiunea Excel 2003) se poate atinge
uşor valoarea maximă admisă pentru tipul numeric. Astfel dacă dorim să
înmulţim 200 de numere ce reprezintă înălţimea persoanelor în centimetri se
va obţine un mesaj de eroare.
10 | Bibliografie
Pentru a împiedica aceasta ne folosim de proprietăţile funcţiei
logaritm de a transforma operaţia de înmulţire în adunare.
Vom folosi formula de calcul a mediei geometrice:
GEOMEAN = exp(average(ln(X1)+ln(X2)+ln(X3)+...+ln(Xn))).
Vom scrie =EXP(AVERAGE(noua coloana ce conține ln(x))).
Valoarea maximă admisă este 1.79769313486232E+308, respectiv
valoarea minimă pozitivă este 2.2250738585072E-308.
Relaţia între valorile medii este: P
G
H M
X
M
M 

 .
Sintaxa funcţiilor:
Averageif(domeniu de aplicare a criteriului, criteriu de selecţie, domeniul de
calcul a mediei)
Averageifs(domeniu de calcul a mediei, domeniu 1 selecţie, criteriu1,
domeniu 2 selecţie, criteriu2, ...perechi domeniu de selecţie - criteriu).
Numărul maxim admis pentru definirea criteriilor este 127 (minim este 1).
i Lucian V. Boiculese, Gabriel Dimitriu, Mihaela Moscalu. Elemente de
Biostatistică – Analiza statistică a datelor biologice. Editura PIM Iasi, 2007.
ii Doina Azoicăi, Lucian V. Boiculese, George Pisică-Donose, Noţiuni de
metodologie epidemiologică şi statistică medicală, Ed. DAN, Iaşi, 2001.
iii Jaba E. Statistica Ediția a III-a. Ed. Econmică, București, 2002.
iv Rand R. Wilcox. Fundamentals of Modern Statistical Methods, Second Edition.
Springer Science+Business Media, LLC, 2010.
v Le C.T. Introductory Biostatistics, John Wiley & Sons, Inc. 2003.

More Related Content

What's hot

Христо Смирненски
Христо СмирненскиХристо Смирненски
Христо Смирненскиsouhs
 
Diversitate tematică și stilistică în opera marilor clasici
Diversitate tematică și stilistică în opera marilor clasiciDiversitate tematică și stilistică în opera marilor clasici
Diversitate tematică și stilistică în opera marilor clasiciCristiana Temelie
 
Omagiu lui Mihai Eminescu la 123 ani de la trecerea în nefiinţă
 Omagiu lui Mihai Eminescu la 123 ani de la trecerea în nefiinţă  Omagiu lui Mihai Eminescu la 123 ani de la trecerea în nefiinţă
Omagiu lui Mihai Eminescu la 123 ani de la trecerea în nefiinţă Ionelia Serban
 
Diversitatea tematica-stilistica-si-de-viziune-in-opera-marilor-clasici
Diversitatea tematica-stilistica-si-de-viziune-in-opera-marilor-clasiciDiversitatea tematica-stilistica-si-de-viziune-in-opera-marilor-clasici
Diversitatea tematica-stilistica-si-de-viziune-in-opera-marilor-clasiciMares Stefan
 
Simbolismul european cimpan mioara colegiul militar campulung moldovenesc
Simbolismul european cimpan mioara colegiul militar campulung moldovenescSimbolismul european cimpan mioara colegiul militar campulung moldovenesc
Simbolismul european cimpan mioara colegiul militar campulung moldovenescMioara Cimpan
 
Povesti terapeutice
Povesti terapeuticePovesti terapeutice
Povesti terapeuticed d
 
Tarile Vecin Romaniei - I
Tarile Vecin Romaniei - ITarile Vecin Romaniei - I
Tarile Vecin Romaniei - IAndrei Balan
 
Campos soria, de Antonio Machado. Por Roger Quintana.
Campos soria, de Antonio Machado. Por Roger Quintana.Campos soria, de Antonio Machado. Por Roger Quintana.
Campos soria, de Antonio Machado. Por Roger Quintana.Pere Pajerols
 
Arta poetica prezentare_profesor
Arta poetica prezentare_profesorArta poetica prezentare_profesor
Arta poetica prezentare_profesorliliionela
 
„Riga Crypto și lapona Enigel” de Ion Barbu.pdf
„Riga Crypto și lapona Enigel” de Ion Barbu.pdf„Riga Crypto și lapona Enigel” de Ion Barbu.pdf
„Riga Crypto și lapona Enigel” de Ion Barbu.pdfFlorentinSaioc
 
Eu nu strivesc corola.doc
Eu nu strivesc corola.docEu nu strivesc corola.doc
Eu nu strivesc corola.docCris Kristinel
 

What's hot (20)

Христо Смирненски
Христо СмирненскиХристо Смирненски
Христо Смирненски
 
Roma Antică
Roma AnticăRoma Antică
Roma Antică
 
Diversitate tematică și stilistică în opera marilor clasici
Diversitate tematică și stilistică în opera marilor clasiciDiversitate tematică și stilistică în opera marilor clasici
Diversitate tematică și stilistică în opera marilor clasici
 
1.Baltagul-Eseu.docx
1.Baltagul-Eseu.docx1.Baltagul-Eseu.docx
1.Baltagul-Eseu.docx
 
Proiect de grup
Proiect de grupProiect de grup
Proiect de grup
 
Omagiu lui Mihai Eminescu la 123 ani de la trecerea în nefiinţă
 Omagiu lui Mihai Eminescu la 123 ani de la trecerea în nefiinţă  Omagiu lui Mihai Eminescu la 123 ani de la trecerea în nefiinţă
Omagiu lui Mihai Eminescu la 123 ani de la trecerea în nefiinţă
 
Dor de eminescu
Dor de eminescuDor de eminescu
Dor de eminescu
 
Diversitatea tematica-stilistica-si-de-viziune-in-opera-marilor-clasici
Diversitatea tematica-stilistica-si-de-viziune-in-opera-marilor-clasiciDiversitatea tematica-stilistica-si-de-viziune-in-opera-marilor-clasici
Diversitatea tematica-stilistica-si-de-viziune-in-opera-marilor-clasici
 
Lectia
LectiaLectia
Lectia
 
Renastere in italia
Renastere in italiaRenastere in italia
Renastere in italia
 
Simbolismul european cimpan mioara colegiul militar campulung moldovenesc
Simbolismul european cimpan mioara colegiul militar campulung moldovenescSimbolismul european cimpan mioara colegiul militar campulung moldovenesc
Simbolismul european cimpan mioara colegiul militar campulung moldovenesc
 
Povesti terapeutice
Povesti terapeuticePovesti terapeutice
Povesti terapeutice
 
Tarile Vecin Romaniei - I
Tarile Vecin Romaniei - ITarile Vecin Romaniei - I
Tarile Vecin Romaniei - I
 
La carta
La cartaLa carta
La carta
 
Campos soria, de Antonio Machado. Por Roger Quintana.
Campos soria, de Antonio Machado. Por Roger Quintana.Campos soria, de Antonio Machado. Por Roger Quintana.
Campos soria, de Antonio Machado. Por Roger Quintana.
 
plumbg.bacovia.pptx
plumbg.bacovia.pptxplumbg.bacovia.pptx
plumbg.bacovia.pptx
 
Arta poetica prezentare_profesor
Arta poetica prezentare_profesorArta poetica prezentare_profesor
Arta poetica prezentare_profesor
 
Stundiu De Caz V
Stundiu De Caz VStundiu De Caz V
Stundiu De Caz V
 
„Riga Crypto și lapona Enigel” de Ion Barbu.pdf
„Riga Crypto și lapona Enigel” de Ion Barbu.pdf„Riga Crypto și lapona Enigel” de Ion Barbu.pdf
„Riga Crypto și lapona Enigel” de Ion Barbu.pdf
 
Eu nu strivesc corola.doc
Eu nu strivesc corola.docEu nu strivesc corola.doc
Eu nu strivesc corola.doc
 

Similar to 9 statistica desriptiva

001 stat-descriptiva-2014-pdf
001 stat-descriptiva-2014-pdf001 stat-descriptiva-2014-pdf
001 stat-descriptiva-2014-pdfNina Timotin
 
curs4-curs-5-curs6.pdf
curs4-curs-5-curs6.pdfcurs4-curs-5-curs6.pdf
curs4-curs-5-curs6.pdfssuser93735a
 
marimile medii.pptx
marimile medii.pptxmarimile medii.pptx
marimile medii.pptxAndrewN17
 
Curs 3 Data Mining
Curs 3 Data MiningCurs 3 Data Mining
Curs 3 Data MiningLucian Sasu
 
Indicatori statistici
Indicatori statisticiIndicatori statistici
Indicatori statisticiRodica B
 
Concepte de baza utilizate in statistica
Concepte de baza utilizate in statisticaConcepte de baza utilizate in statistica
Concepte de baza utilizate in statisticaRodica B
 
Elemente de statistica matematica și probabilitatea
Elemente de statistica matematica și probabilitateaElemente de statistica matematica și probabilitatea
Elemente de statistica matematica și probabilitateaoles vol
 
Date elementare si sistematizarea lor - statistica
 Date elementare si sistematizarea lor - statistica Date elementare si sistematizarea lor - statistica
Date elementare si sistematizarea lor - statisticaRodica B
 
Metode si tehnici de previziune
Metode si tehnici de previziuneMetode si tehnici de previziune
Metode si tehnici de previziuneOana Elena
 

Similar to 9 statistica desriptiva (15)

Elemente de statistica
Elemente de statisticaElemente de statistica
Elemente de statistica
 
001 stat-descriptiva-2014-pdf
001 stat-descriptiva-2014-pdf001 stat-descriptiva-2014-pdf
001 stat-descriptiva-2014-pdf
 
curs4-curs-5-curs6.pdf
curs4-curs-5-curs6.pdfcurs4-curs-5-curs6.pdf
curs4-curs-5-curs6.pdf
 
Regresie
RegresieRegresie
Regresie
 
marimile medii.pptx
marimile medii.pptxmarimile medii.pptx
marimile medii.pptx
 
Curs02 (2014)
Curs02 (2014)Curs02 (2014)
Curs02 (2014)
 
Curs 3 Data Mining
Curs 3 Data MiningCurs 3 Data Mining
Curs 3 Data Mining
 
amalia word
amalia wordamalia word
amalia word
 
Fiap05
Fiap05Fiap05
Fiap05
 
Indicatori statistici
Indicatori statisticiIndicatori statistici
Indicatori statistici
 
Concepte de baza utilizate in statistica
Concepte de baza utilizate in statisticaConcepte de baza utilizate in statistica
Concepte de baza utilizate in statistica
 
Elemente de statistica matematica și probabilitatea
Elemente de statistica matematica și probabilitateaElemente de statistica matematica și probabilitatea
Elemente de statistica matematica și probabilitatea
 
Date elementare si sistematizarea lor - statistica
 Date elementare si sistematizarea lor - statistica Date elementare si sistematizarea lor - statistica
Date elementare si sistematizarea lor - statistica
 
Metode si tehnici de previziune
Metode si tehnici de previziuneMetode si tehnici de previziune
Metode si tehnici de previziune
 
Curs03 (2013-2014)
Curs03 (2013-2014)Curs03 (2013-2014)
Curs03 (2013-2014)
 

9 statistica desriptiva

  • 1. Bibliografie | 1 13 STATISTICĂ DESCRIPTIVĂ (I) Noţiuni prezentate: Statistică descriptivă  Calculul indicatorilor statistici Statistica matematică este cea mai adecvată şi exactă metodă de interpretare a fenomenelor de masă, cu posibile legături cauzale, multifactoriale, unde legitatea se manifestă şi se poate observa prin rezultanta unui număr mare de fapte luate în studiu. Într-o primă formă extragerea de informaţii din date constă în prezentarea descriptivă deci calculul indicatorilor statistici cât şi realizarea distribuției de frecvenţă [i]. Există două tipuri de variabile (date) ce definesc natura informaţiei: cantitative şi respectiv, calitative. Datele de tip calitativ mai sunt cunoscute şi cu numele de variabile categoriale sau atributive. Valorile acestora variază ca sortiment, categorie sau clasă, nu după magnitudine sau mărime. Practic, nu putem realiza o ordonare între valorile existente (de ex. culoarea unui produs) [ii]. Datele sau variabilele de tip cantitativ se caracterizează prin variaţie în magnitudine, de la element la element. Astfel, acestea pot fi ordonate, încât relaţii de genul mai mic sau mai mare au sens în acest context. După fineţea pasului de evaluare a relaţiei mai mare sau mai mic, putem împărţi variabilele cantitative în discrete şi continue. O variabilă discretă poate lua valori numărabile sau izolate, cum ar fi: numărul de note de 10 la examenul de admitere, sau numărul de nou născuţi într-o zi la o maternitate. O variabilă de tip continuu poate lua orice valoare dintr-un interval definit. Calculul indicatorilor statistici În studiul distribuţiei de frecvenţe a caracteristicii unei populaţii se observă tendințe cu două aspecte: 1 – de localizare (de poziţie), 2 – de împrăştiere (de variaţie) [5, 9, iii, iv, v]. Indicatori de localizare Media aritmetică (simplă)
  • 2. 2 | Bibliografie Este indicatorul de bază al tendinţei de localizare. Considerăm şirul de date x1, x2, … ,xn. Media aritmetică se notează cu X sau M(x): n x n x x x X n i i n        1 2 1 ... Media aritmetică ponderată Dacă avem frecvenţele absolute a1, a2, … , am corespunzătoare valorilor x1, x2, …., xm), atunci media se poate calcula conform formulei: n x a a a a x a x a x a X m j j j m m m               1 2 1 2 2 1 1 ... ..... Media aritmetică ajustată În situaţia în care avem posibile valori eronate apropiate de extremele minimă respectiv maximă, este indicat să se folosească media aritmetică ajustată (trimmean). Aceasta se va calcula folosind din datele iniţiale doar un procent de 90% sau 80% de exemplu. Practic valorile extreme vor fi eliminate în proporţia dorită. Dacă alegem să lucrăm cu 90% din volumul de date, atunci 5% reprezentând valorile cele mai mici respectiv 5% reprezentând valorile cele mai mari vor fi eliminate din calcul. Media armonică Se utilizează în calculul valorii medii pentru mai multe mărimi relative (este mai potrivită decât valoarea medie simplă). Valoarea reciprocă (inversă) a mediei armonice este media reciprocelor valorilor din lot. Pentru şirul de valori x1, x2, x3, … , xn se notează cu MH media armonică. Formula de calcul este:     n i i H x n M 1 1 1 1 ,        n i i n H x n n x x x M 1 2 1 1 1 ... 1 1 1 , cu condiţia 0  i x . Considerând frecvenţele absolute notate ai obţinem următoarea formulă de calcul a mediei armonice ponderate:       m j j j n i i H x a n x n M 1 1 1 . Media cronologică
  • 3. Bibliografie | 3 Este utilizată pentru seriile care au variaţii în timp (lunare, semestriale sau anuale). Formula de calcul: 1 2 ... 2 1 2 1        n X X X X M n n C . Media geometrică Se utilizează în calculul coeficienţilor de creştere medie a valorilor unei serii cronologice logaritmice, sau a seriilor cu creştere progresivă (cu raţie crescătoare). De exemplu, se foloseşte în calculul ritmului mediu de creştere anuală sau în dinamica sporului natural al populaţiei. Media geometrică a unui şir de valori x1, x2, x3, … , xn se notează de obicei cu MG şi se calculează cu formula: n i n i n n G x x x x x M         1 3 2 1 ... . Media pătratică Fie şirul de valori x1, x2, x3, …, xn. Media pătratică se notează MP şi se calculează cu formula (radical din media pătratelor valorilor): 2 1 2 X n x M n i i P     . Mediana Notăm valorile unui şir cu x1, x2, x3, …, xn. Suplimentar, acest şir trebuie să fie ordonat. Valoarea ce ocupă locul central (este independentă de tipul de ordonare crescătoare sau descrescătoare) se numeşte mediană şi se notează cu Me. Dacă şirul are un număr impar de valori, adică n = 2k+1, avem : 2 1 1     n k x x Me . Dacă şirul are un număr par de valori, deci n=2k, calculăm mediana cu formula: 2 / ) ( 1    k k x x Me . Mediana este un indicator robust şi este mai puţin influenţată de valorile extreme (asemănător mediei aritmetice ajustate) decât media şi este mai stabilă la fluctuaţiile de selecţie. Modul (dominanta) Fie şirul format din elementele x1, x2, x3, …, xn. Valoarea xi corespunzătoare frecvenţei celei mai mari poartă numele de mod. Repartiţia poate avea mai multe maxime, dar de obicei doar unul este global, celelalte fiind locale. Dacă există un singur maxim repartiţia se numeşte unimodală, cu două maxime se va numi bimodală, iar cu mai multe maxime este numită polimodală sau multimodală.
  • 4. 4 | Bibliografie Sunt situaţii în care datele sunt grupate pe clase. În acest caz intervalul corespunzător frecvenţei maxime se numeşte interval modal sau clasă modală. Modul se notează cu Mo. Valoarea centrală Reprezintă media extremelor şirului de date studiat: 2 min max X X Xc   . Dacă valorile din şirul de date sunt grupate pe clase, formula de calcul devine: 2 . sup . inf clasa clasa X X Xc   . Este uşor de observat că valoarea centrală este dependentă de extreme şi nu de valorile tuturor datelor. Observație: Unitatea de măsură a indicatorilor de localizare este aceeași cu a elementelor componente a eșantionului sau lotului studiat. Indicatori de variaţie Categoria de indicatori de dispersie (variaţie) reprezintă o evaluare numerică a împrăştierii datelor. Variaţia luată în considerare se poate raporta chiar la valoarea medie calculată. Dispersia (varianţa) Dispersia sau varianţa reprezintă o mediere a pătratelor distanţelor faţă de valoarea medie a şirului de date. Se notează cu 2  sau D[x]. Are următoarea formulă de calcul (pentru volumul n al eşantionului de valori mari, n>30):         n X x n X x X x X x n i i n            1 2 2 2 2 2 1 2 .....  . Dacă avem valorile x1, x2, x3, …, xn cu frecvenţele absolute a1, a2, …, am, atunci formula de calcul devine:               m i i i m i i i X x f n X x a 1 2 1 2 2  . Făcând apel la noțiunile de statistică observăm că numărul de valori ce compun setul de date, are influență asupra formulelor de calcul a indicatorilor statistici. Dacă volumul eşantionului este mai mic decât 30, atunci se aplică o corecţie asupra numitorului formulei. În acest caz ajustarea este în sensul că nu se împarte la n ci la n-1 (numit şi numărul gradelor de libertate).     1 1 1 2 1 2 1 2 2               n n n n n X x n X x n i i n i i estimat   .
  • 5. Bibliografie | 5 Abaterea pătratică medie (deviaţia standard) Prin extragerea rădăcinii pătrate din dispersie se obţine abaterea pătratică medie. Astfel, deviaţia standard şi indicatorii de localizare se exprimă cu aceleaşi unităţi de măsură. Formula:   n X x x D n i i      1 2 ] [  . Ţinând cont de frecvenţele absolute avem:        m i i i X x n a 1 2  . Putem exprima şi astfel: 2 2 2 2 2 2 X M X X M P P        . Pentru eşantioane mici se aplică formula de estimare prin împărţire la (n-1) în loc de n. Abaterea individuală Reprezintă o măsură caracteristică fiecărei valori din setul de date. Se calculează ca diferență față de valoarea medie. Se poate calcula în formă absolută sau relativă conform formulelor: X x d i i   respectiv % 100 %    X X x d i i Amplitudinea Este definită ca diferenţa valorilor extreme ale şirului de date studiat şi se notează cu W sau A (în majoritatea cazurilor): W = A = Xmax - Xmin . În cazul grupării datelor pe clase se defineşte şi noţiunea de amplitudine a clasei, notată cu wi (corespunzător clasei i). Această mărime este egală cu diferenţa dintre valorile extreme ale clasei respective. Cu cât este mai mică valoarea sa cu atât lotul este mai omogen. Aspecte negative ale amplitudinii:  depinde de eşantion, având variaţii pentru fiecare eşantion în parte,  nu ţine seama de tipul repartiţie. Intervalul intercuartilic Cuartilele (întâlnit și cu numele quartile sau cvartile) împart datele în 4 clase de frecvenţe egale cu 25%. Astfel, sunt necesare 3 valori Q1, Q2, Q3 care reprezintă cuartilele. Suma frecvenţelor până la limita determinată de Q1 este egală cu suma frecvenţelor dintre Q1 şi Q2, de asemenea egală cu suma frecvenţelor dintre Q2 şi Q3 şi în final, egală cu suma frecvenţelor de după Q3. Intervalul cuartilic se defineşte ca fiind diferenţa dintre Q3 şi Q1 (ultima şi prima cuartilă). Q1 se numeşte cuartilă inferioară sau mică, Q3 se numeşte cuartila superioară sau mare. Prin urmare, intervalul intercuartilic va fi: Iq = Q3 – Q1.
  • 6. 6 | Bibliografie Observaţie: Cuartila Q2 este tocmai mediana Me. Se defineşte coeficientul de variaţie intercuartilică ca fiind raportul: e q M I Q Q Q q    2 1 3 . Coeficientul de variaţie Abaterea pătratică medie se interpretează prin compararea cu media valorilor studiate. Dacă avem o medie de 100 şi o abatere pătratică standard 5   , atunci avem mici variaţii, dar dacă avem aceeaşi abatere la o medie de 10, atunci variaţia este foarte mare. În concluzie, este necesară raportarea abaterii pătratice la valoarea mediei, pentru a exprima corect împrăştierea datelor. Se defineşte coeficientul de variaţie: X   Cx . Acest coeficient este o măsură relativă a variaţiei datelor faţă de medie. Astfel, indiferent de medie, seturile de date, chiar de natură diferită, pot fi comparate folosind coeficientul de variaţie. Asimetrie (skewness) O distribuţie este considerată simetrică, dacă de o parte şi de alta a mediei, frecvenţele au aceleaşi valori. Pentru a obţine o măsură a asimetriei, statisticianul englez Karl Pearson a definit în primă etapă indicatorul relativ de asimetrie (acest indicator este adimensional, fiind astfel util pentru a compara distribuţiile între ele):   Mo Sk   . Formula actuală de calcul (de estimare deoarece lucrăm cu un eşantion din întreaga populaţie) este: n s x Sk n i i             1 3 X pentru n mare, respectiv                 n i i s x n n n Sk 1 3 X ) 2 ( ) 1 ( , pentru n de valori mici (s este deviația standard a eşantionului). Cazuri posibile: 1. Dacă Sk>0, avem asimetrie pozitivă sau asimetrie la dreapta, Mo  X . 2. Dacă Sk<0, avem asimetrie negativă sau asimetrie la stânga, Mo  X 3. Dacă Sk=0, avem simetrie (distribuţia normală are asimetria 0). În general, o distribuţie care are valoarea Sk diferită de 0 cu mai mult de ±1, denotă o diferenţă semnificativă faţă de distribuţia normală.
  • 7. Bibliografie | 7 În limba engleză cuvântul consacrat este skewness, folosit în programele de statistică. Boltirea (excesul, kurtosis) Acest indicator compară distribuţia dată cu cea normală sau Gauss’iană. Statisticianul englez Karl Pearson a definit de asemenea coeficientul de boltire:   4 4 2 2 4 2   m m m   (m4 este momentul centrat de ordin 4 în raport cu media). Pentru o distribuţie normală 3 2  normal  . Pentru descrierea boltirii se poate folosi şi coeficientul Fisher, ce măsoară excesul faţă de distribuţia normală. Acesta se calculează cu formula: 3 3 4 4 2 2         , echivalentă cu:   3 X 4 1 4 2       s n x n i i  (pentru eşantion de volum mare). La valori mici ale volumului lotului pentru estimare se foloseşte formula: ) 3 ( ) 2 ( ) 1 ( 3 X ) 3 ( ) 2 ( ) 1 ( ) 1 ( 2 1 4 2                           n n n s x n n n n n n i i  . Avem următoarele modalităţi de caracterizare a distribuţiilor: Mezocurtică  0 , 3 2 2     . Leptocurtică  0 , 3 2 2     . Platicurtică  0 , 3 2 2     . (Forma distribuţiilor este sugerată de etimologia cuvintelor: ,,platus” în limba greacă semnifică ,,lat”, ,,leptos” – ,,subţire”, ,,mesos” - ,,mijlociu”, ,,kurtosis” – ,,exces, cocoaşă”). Tabelul 13-1. Metode de calcul a indicatorilor statistici în Microsoft Excel Nr Indicator statistic Funcţie Excel Descriere / formula 1. Media aritmetică Average() Averageif() Averageifs() Media setului selectat Media selecţiei pentru celulele ce îndeplinesc o singură condiţie. Media selecţiei pentru condiţii multiple. 2. Media aritmetică ajustată. Trimmean(domeniu, procent) Se calculează media aritmetică eliminând din setul de date procentul specificat din valorile extreme atât minimă cât şi maximă. Vor rămâne : (100% − 2 ∙ 𝑝𝑟𝑜𝑐𝑒𝑛𝑡) ∙ 𝑁𝑟. 𝑑𝑎𝑡𝑒. 𝑖𝑛𝑖𝑡
  • 8. 8 | Bibliografie Nr Indicator statistic Funcţie Excel Descriere / formula 3. Media armonică Harmean()    n i i H x n M 1 1 4. Media cronologică Veţi propune o metodă de calcul. 1 2 1 ... 2 2 1        n n X n X X X C M 5. Media geometrică Geomean() n i n i G x M    1 6. Media pătratică Veţi propune o metodă de calcul. 2 1 2 x n x M n i i P     7. Mediana Median() Valoarea de mijloc a şirului ordonat 8. Valoarea modală (modul) Mode() sau Mode.sngl() Valoarea de frecvenţă maximă 9. Dispersia (pt. populaţie) Varp() sau Var.p()   n x x m i i     1 2 2  10. Dispersia (pt. eşantion) Var() sau Var.s()   1 1 2 2      n x x m i i  11. Deviaţia standard (pt. populaţie) Stdevp() sau Stdev.p()   n x x m i i     1 2  12. Deviaţia standard (pt. eşantion) Stdev() sau Stedv.s()   1 1 2      n x x m i i  13. Calcul cuartile Quartile (domeniu, valoare) Valoarea indică numărul cuartilei calculate: 0 – minimul ; 1 – Q1 ; 2 – Q2 ; 3 – Q3 ; 4 - maximul 14. Intervalul cuartilic Veţi calcula diferenţa. IQ = Q3 – Q1 15. Asimetria Skew()                 n i i s x x n n n Sk 1 3 ) 2 ( ) 1 ( 16. Boltirea Kurt()          ) 3 ( ) 2 ( ) 1 ( ) 1 ( 2 n n n n n  ) 3 ( ) 2 ( ) 1 ( 3 2 1 4                  n n n s x x n i i
  • 9. Bibliografie | 9 Figura 13-1. Indicatori statistici calculați prin statistica descriptivă. O metodă rapidă pentru determinarea indicatorilor statistici principali (lipsesc: media geometrică, armonică, cronologică, pătratică, ajustată, cuartilele) constă în lansarea procedurii statisticii descriptive (Descriptive Statistics) din Analiza datelor – rezultatele sunt prezentate în figura alăturată [5, 9]. EXERCIŢII Fișierul Excel de lucru conține coloanele de date numerice de tip continuu: inaltime, IMC, greutate. Datele de tip categorial sunt: mediu rezidenta, stare civila, ocupatie. 1. Calculaţi pentru coloanele Înălţime, IMC, Greutate, Talie indicatorii statistici prezentaţi folosind formulele de calcul şi apoi folosind opţiunea Descriptive Statistics. 2. Aranjaţi în ordine crescătoare valorile mediilor calculate: P G H M X M M , , , . 3. Calculaţi pentru coloanele Înălţime, IMC, Greutate, Talie media persoanelor din mediul rural, apoi din mediul rural şi căsătorite apoi din mediul urban, căsătorite şi pensionate folosind averageifs(). Observaţii: În calculul mediei geometrice (versiunea Excel 2003) se poate atinge uşor valoarea maximă admisă pentru tipul numeric. Astfel dacă dorim să înmulţim 200 de numere ce reprezintă înălţimea persoanelor în centimetri se va obţine un mesaj de eroare.
  • 10. 10 | Bibliografie Pentru a împiedica aceasta ne folosim de proprietăţile funcţiei logaritm de a transforma operaţia de înmulţire în adunare. Vom folosi formula de calcul a mediei geometrice: GEOMEAN = exp(average(ln(X1)+ln(X2)+ln(X3)+...+ln(Xn))). Vom scrie =EXP(AVERAGE(noua coloana ce conține ln(x))). Valoarea maximă admisă este 1.79769313486232E+308, respectiv valoarea minimă pozitivă este 2.2250738585072E-308. Relaţia între valorile medii este: P G H M X M M    . Sintaxa funcţiilor: Averageif(domeniu de aplicare a criteriului, criteriu de selecţie, domeniul de calcul a mediei) Averageifs(domeniu de calcul a mediei, domeniu 1 selecţie, criteriu1, domeniu 2 selecţie, criteriu2, ...perechi domeniu de selecţie - criteriu). Numărul maxim admis pentru definirea criteriilor este 127 (minim este 1). i Lucian V. Boiculese, Gabriel Dimitriu, Mihaela Moscalu. Elemente de Biostatistică – Analiza statistică a datelor biologice. Editura PIM Iasi, 2007. ii Doina Azoicăi, Lucian V. Boiculese, George Pisică-Donose, Noţiuni de metodologie epidemiologică şi statistică medicală, Ed. DAN, Iaşi, 2001. iii Jaba E. Statistica Ediția a III-a. Ed. Econmică, București, 2002. iv Rand R. Wilcox. Fundamentals of Modern Statistical Methods, Second Edition. Springer Science+Business Media, LLC, 2010. v Le C.T. Introductory Biostatistics, John Wiley & Sons, Inc. 2003.