1. ΣΤΑΤΙΣΤΙΚΑ ΜΕΤΡΑ ΔΙΑΣΠΟΡΑΣ
- ΑΣΥΜΜΕΤΡΙΑΣ - ΚΥΡΤΩΣΕΩΣ
• Διασπορά – (διακύμανση, εύρος μεταβολής κλπ)
– μας πληροφορεί για τη διασπορά των δεδομένων
συνήθως γύρω από τη μέση τιμή
• Ασυμμετρία
– μετράει το βαθμό της συμμετρίας των δεδομένων ως
προς τη συχνότητά – κατανομή τους γύρω από τη μέση
τιμή.
• Κύρτωση
– μετράει το βαθμό συγκέντρωσης των δεδομένων γύρω
από τη μέση τιμή.
– Η κύρτωση δείχνει την αιχμηρότητα ή την πλάτυνση της
κατανομής
2. • Τα μέτρα διασποράς που θα εξετάσουμε είναι τα
εξής:
– α) Το εύρος μεταβολής,
– β) το ενδοτεταρτημοριακό εύρος,
– γ) η μέση απόκλιση,
– δ) η μέση απόκλιση τετραγώνου,
– ε) ο συντελεστής μεταβλητικότητας
3. Εύρος Μεταβολής
• Το Εύρος μεταβολής είναι
– το απλούστερο μέτρο διασποράς
– υπολογίζεται ως η διαφορά μεταξύ της
μεγαλύτερης και της μικρότερης τιμής
• Το Εύρος μεταβολής δεν θεωρείται
αξιόπιστο
– γιατί εξαρτάται μόνο από τις δύο ακραίες
τιμές των δεδομένων.
– αν διαφορά των ακραίων τιμών είναι πολύ
μεγάλη, τότε και το εύρος θα είναι ανάλογο
– Χρήση. Π.χ. ΧΑΑ
𝛦 = 𝑋𝑚𝑎𝑥 − 𝑋𝑚𝑖𝑛
5. Ενδοτεταρτημοριακό Εύρος
• Η απόσταση μεταξύ πρώτου και τρίτου
τεταρτημόριου μας δίνει το
– ενδοτεταρτημοριακό εύρος,
•το οποίο συμβολίζεται με IQR.
𝐼𝑄𝑅 = 𝑄3 − 𝑄1
6. • Το 50% των τιμών των δεδομένων βρίσκεται
σε ένα εύρος 9.990 ευρώ.
• Με άλλα λόγια, οι μισοί από τους ανθρώπους
που έχουμε στο δείγμα μας έχουν εισόδημα από
13.928 ευρώ έως 23.918 ευρώ.
Χ Εισόδημα
Q1 13.928
Q2 18.549
Q3 23.918
𝐼𝑄𝑅 = 𝑄3 − 𝑄1 = 23.918 − 13.928 = 9.990
7. Τάξεις fi Fi
30-40 5 5
40-50 12 17
50-60 19 36
60-70 30 66
70-80 17 83
80-90 10 93
90-100 7 100
100
21
,
54
)
17
25
(
19
10
50
)
25
,
0
( 1
1
i
i
i
F
N
f
x
Q
294
,
75
)
66
75
(
17
10
70
)
75
,
0
( 1
3
i
i
i
F
N
f
x
Q
21
2
,
54
2
,
75
1
3
Q
Q
IQR
8. Να βρεθεί το ενδοτεταρτημοριακό εύρος στα
παρακάτω ταξινομημένα δεδομένα
Κλάσεις
1 – 3 1
3 – 5 4
5 – 7 5
7 – 9 6
9 – 11 4
Σύνολο 20
13. Μέση Απόκλιση
• Η Μέση Απόκλιση (Μ. Α.) ορίζεται ως ο μέσος
αριθμητικός των απόλυτων αποκλίσεων
(διαφορών) των τιμών μιας μεταβλητής Χ από
το μέσο αριθμητικό τους.
•
• Το άθροισμα των αποκλίσεων είναι ίσο με
μηδέν,
– γι αυτό υπολογίζουμε το άθροισμα των
απόλυτων αποκλίσεων
n
x
x
A
M
i
.
.
14. Μέση Απόκλιση
• Παράδειγμα: Έστω ότι έχουμε το εισόδημα 5
υπαλλήλων.
• Χ: 1000, 900, 1300, 700, 800
• Η μέση τιμή είναι 940
• Υπολογίζουμε τις αποκλίσεις κάθε τιμής από τη
μέση τιμή. Για παράδειγμα η πρώτη απόκλιση
είναι ίση με: .
• Αθροίζουμε τις αποκλίσεις, και υπολογίζουμε τη
Μέση Απόκλιση ως εξής:
168
5
840
.
.
n
x
x
A
M
i
940
1000
x
xi
15. Μέση Απόκλιση
• Μ. Α. = 37 δρχ.
• Η τιμή Μ. Α. =37 σημαίνει ότι το ημερομίσθιο κάθε
εργάτη αποκλίνει (διαφέρει), κατά μέσο όρο, από το
μέσο ημερομίσθιο κατά 37
• Η Μέση Απόκλιση πλεονεκτεί από τα δύο
προηγούμενα μέτρα διασποράς (R και Q),
– γιατί λαμβάνει υπόψη όλες τις τιμές της μεταβλητής.
• Μειονεκτεί όμως, διότι δεν επιδέχεται αλγεβρικό
χειρισμό,
37
10
370
.
.
n
x
x
A
M
i
472
x
16. Τυπική Απόκλιση και Διακύμανση
• Το σημαντικότερο στατιστικό μέτρο διασποράς
των τιμών μιας μεταβλητής Χ γύρω από το
μέσο αριθμητικό τους είναι η Τυπική Απόκλιση
– Υπολογίζεται με την τετραγωνική ρίζα του μέσου
αριθμητικού των τετραγώνων των αποκλίσεων των
τιμών μιας μεταβλητής Χ από το μέσο αριθμητικό
τους.
• Η τυπική απόκλιση συμβολίζεται με το σ στην
περίπτωση του πληθυσμού και S στην
περίπτωση του δείγματος
17. Τυπική απόκλιση και Διακύμανση
• Το τετράγωνο της τυπικής απόκλισης, ονομάζεται
διακύμανση και συμβολίζεται με
– σ2 για δεδομένα πληθυσμού
– S2 για δεδομένα δείγματος.
• Η τυπική απόκλιση εκφράζεται στις μονάδες που
εκφράζεται και η υπό μελέτη μεταβλητή Χ,
– ενώ η διακύμανση εκφράζεται στο τετράγωνο της
μεταβλητής Χ.
18. Υπολογισμός Διακυμάνσεως και Τυπικής
Αποκλίσεως
• Όταν τα δεδομένα αφορούν πληθυσμό
– μ είναι ο μέσος του πληθυσμού και
– Ν το πλήθος των δεδομένων του πληθυσμού.
• Όταν τα δεδομένα αποτελούν ένα δείγμα
2
2 )
(
i
x
1
)
( 2
2
n
x
s i
19. • Mε τον όρο "βαθμοί ελευθερίας" εννοούμε το
πλήθος των στατιστικών δεδομένων,
– τα οποία διαμορφώνονται ελεύθερα χωρίς κανένα
περιορισμό.
• Για τον υπολογισμό όμως της διακυμάνσεως ενός
δείγματος προκύπτουν n αποκλίσεις .
• Από τις n αυτές αποκλίσεις μόνο οι n-1 είναι
ανεξάρτητες,
– γιατί η n-στή απόκλιση από το χ είναι καθορισμένη
(περιορισμένη),
– διότι ο υπολογισμός του μέσου αριθμητικού αποτελεί
ένα περιορισμό ότι άρα μόνο οι n - 1
αποκλίσεις είναι ανεξάρτητες (αδέσμευτες)
– επομένως, για τον υπολογισμό της διακυμάνσεως
παραμένουν n-1 βαθμοί ελευθερίας.
)
( x
xi
0
)
(
x
xi
20. • Για τον πληθυσμό:
• Για το δείγμα:
N
f i
i
2
2 )
(
1
)
( 2
2
n
x
f
s i
i
30. Συντελεστής Μεταβλητότητας
• H τυπική απόκλιση δεν δίνει τη δυνατότητα
– να αποφανθούμε για το εάν η διασπορά είναι μικρή
ή μεγάλη.
– να συγκρίνουμε τη διασπορά κατανομών που
μετριούνται σε διαφορετική κλίμακα
– να συγκρίνουμε τη διασπορά κατανομών τα οποία
εκφράζονται σε διαφορετικές μονάδες.
• Λύση στο πρόβλημα αποτελεί η χρήση του
συντελεστής μεταβλητότητας
– συμβολίζεται με CV
– Ο συντελεστής μεταβλητικότητας είναι
καθαρός αριθμός (χωρίς μονάδες μετρήσεως)
31. Συντελεστής Μεταβλητικότητας
• Για τον πληθυσμό έχουμε:
• Για το δείγμα:
• Ο συντελεστής μεταβλητότητας είναι η τυπική
απόκλιση ως ποσοστό του μέσου.
• Είναι δυνατό να εκφράσουμε το συντελεστή
μεταβλητότητας σε αριθμό και όχι σε ποσοστό.
𝐶𝑉 =
𝜎
𝜇
100%
𝐶𝑉 =
𝑠
𝑥
100%
32. • Διαιρούμε την τυπική απόκλιση με το μέσο
– μέτρα που είναι εκφρασμένα στις ίδιες φυσικές
μονάδες.
• Για παράδειγμα,
– διαιρούμε κιλά με κιλά, ευρώ με ευρώ, κλπ.
– Επομένως, οι μονάδες εξαφανίζονται και ο
συντελεστής μεταβλητότητας μένει ένα καθαρό
ποσοστό (ή ένας καθαρός αριθμός).
• Π.χ. ζητούμε τη σύγκριση της τυπικής
απόκλισης μιας κατανομής βαρών με μια
αναστημάτων
– Πρόβλημα: Διαφορετικές μονάδες μέτρησης
– Λύση: Συντελεστής μεταβλητικότητας
33. • Σε ένα Τμήμα οι φοιτητές παρακολουθούν
στατιστική και οικονομικά και υποβάλλονται
σε εβδομαδιαία τεστ.
• Στο τέλος της χρονιάς οι φοιτητές έχουν
– μέσο όρο βαθμολογίας στη στατιστική 5,5 με
τυπική απόκλιση 0,9
– ενώ στα οικονομικά έχουν μέσο όρο 7,5 και
τυπική απόκλιση 1,1.
• Σε ποιο μάθημα οι φοιτητές αποδίδουν με τη
μικρότερη διασπορά (με μεγαλύτερη συνέπεια);
34. • Απάντηση: Θα υπολογίσουμε τους
συντελεστές μεταβλητότητας για τα δύο
μαθήματα αντίστοιχα:
• Στα οικονομικά υπάρχει μεγαλύτερη τυπική
απόκλιση.
• Ωστόσο, προσέξτε ότι ο μέσος όρος στα
οικονομικά είναι μεγαλύτερος από το μέσο όρο
στη στατιστική.
𝐶𝑉𝛴𝜏𝛼𝜏 =
𝑠
𝑥
100% =
0,9
5,5
100% = 16,36%
𝐶𝑉𝛰𝜄𝜅 =
𝑠
𝑥
100% =
1,1
7,5
100% = 14,67%
35. • Ο συντελεστής μεταβλητότητας στα οικονομικά
είναι χαμηλότερος από ότι στην στατιστική,
– γεγονός που σημαίνει ότι οι φοιτητές είναι
περισσότερο συνεπείς στην απόδοσή τους στα
οικονομικά σε σχέση με τη στατιστική.
– Η σχετική διασπορά στη στατιστική είναι
μεγαλύτερη.
𝐶𝑉𝛴𝜏𝛼𝜏 =
𝑠
𝑥
100% =
0,9
5,5
100% = 16,36%
𝐶𝑉𝛰𝜄𝜅 =
𝑠
𝑥
100% =
1,1
7,5
100% = 14,67%
36. • Να βρεθεί ποιο από τα δυο παρακάτω δείγματα
προέρχεται από τον πληθυσμό που έχει τη
μεγαλύτερη διασπορά με βάση το συντελεστή
μεταβλητότητας.
• Υ: 1, 6, 9, 4
• X: 101 , 104, 102, 103
39. • Παρατηρούμε ότι η εκτίμηση του δείκτη
μεταβλητότητας για τον πρώτο πληθυσμό (με βάση
το πρώτο δείγμα) είναι πολύ υψηλότερη, γεγονός
που οφείλεται όχι μόνο στη διασπορά των
δεδομένων (αποκλίσεις από τη μέση τιμή είναι
μεγαλύτερες στο πρώτο δείγμα), αλλά και στο μικρό
κατ’ απόλυτη τιμή μέγεθος της μέσης τιμής (είναι 5
ενώ στο δεύτερο δείγμα 102,5).
40. ΜΕΤΡΑ ΑΣΥΜΜΕΤΡΙΑΣ
• Για να περιγραφεί ικανοποιητικά μια κατανομή
συχνοτήτων απαιτείται ο προσδιορισμός
τεσσάρων βασικών στατιστικών παραμέτρων:
– i) Κεντρική Τάση
– ii) Διασπορά,
– iii) Ασυμμετρία και
– iv) Κύρτωση
• Η ασυμμετρία (skewness) δείχνει πόσο
συμμετρικά γύρω από το μέσο κατανέμονται οι
παρατηρήσεις, τα δεδομένα μας.
41. ΣΥΝΤΕΛΕΣΤΗΣ ΑΣΥΜΜΕΤΡΙΑΣ
• Απλά δεδομένα - Ασυμμετρία πληθυσμού
• Απλά δεδομένα - Ασυμμετρία δείγματος
2
2
2
)
(
μ
N
x
xi
N
xi
3
3
)
(
μ
3
3
σ
μ
G
𝐺 =
1
𝑛 − 1
𝑥𝑖 − 𝑥
𝑠
3
𝑘
𝑖=1
42. Ασυμμετρία στα απλά δεδομένα - πληθυσμός
𝐺 =
𝜇3
𝜎3
Με το γράμμαμi συμβολίζονται οι κεντρικές ροπές, δηλαδή οι διαφορέςαπό
τη μέση τιμή υψωμένεςστον δείκτη i,𝜇𝑖 =
𝛴(𝑥𝑖−𝜇)𝑖
𝛮
.
𝜇3 είναι ητρίτη κεντρική ροπή και ισούται με 𝜇3 =
𝛴(𝑥𝑖−𝜇)3
𝛮
.
𝜎3
είναι ητυπική απόκλιση υψωμένη στην τρίτη. Αφού υπολογίσουμε τη
διακύμανση, η οποία σημειωτέον είναι ηδεύτερη κεντρική ροπή 𝜎2
= 𝜇2 =
𝛴(𝑥𝑖−𝜇)2
𝛮
.
44. Παράδειγμα
Να βρεθεί η ασυμμετρία στον παρακάτω πληθυσμό,
Χ: 1, 2, 3, 5, 4
Λύση
Βήμα 1ο
. Υπολογίζουμε τη μέση τιμή
𝜇 =
𝛴𝑥𝑖
𝑛
=
15
5
= 3
Βήμα 2ο
. Υπολογίζουμε την τρίτη κεντρική ροπή 𝜇3 =
𝛴(𝑥𝑖−𝜇)3
𝛮
=
0
5
= 0. Επειδή το 𝜇3
είναι ο αριθμητής της ασυμμετρίας και ισούται με το μηδέν, έπεται ότι το
αποτέλεσμα του συντελεστή ασυμμετρίας είναι μηδέν, συνεπώς θα μπορούσαμε να
σταματήσουμε στο σημείο αυτό, αλλά για να ολοκληρώσουμε την προσέγγιση θα
εξετάσουμε και το βήμα 3ο
.
49. • Στη διεθνή βιβλιογραφία χρησιμοποιούνται
διάφορες παραλλαγές του προηγούμενου τύπου
με σκοπό την κατά το δυνατό καλύτερη
προσέγγιση της πραγματικής ασυμμετρίας του
πληθυσμού.
•
• Μο είναι η επικρατούσα τιμή και Μd είναι η διάμεσος
𝐺 =
𝑛
𝑛 − 1 𝑛 − 2
𝑓𝑖
𝑥𝑖 − 𝑥
𝑠
3
𝑘
𝑖=1
𝜋𝜌ώ𝜏𝜊𝜍 𝜎𝜐𝜈𝜏𝜀𝜆𝜀𝜎𝜏ή𝜍 𝜆𝜊𝜉ό𝜏𝜂𝜏𝛼𝜍 𝜏𝜊𝜐 𝑃𝑒𝑎𝑟𝑠𝑜𝑛 =
𝑥 − 𝑀𝑜
𝑠
𝛿𝜀ύ𝜏𝜀𝜌𝜊𝜍 𝜎𝜐𝜈𝜏𝜀𝜆𝜀𝜎𝜏ή𝜍 𝜆𝜊𝜉ό𝜏𝜂𝜏𝛼𝜍 𝜏𝜊𝜐 𝑃𝑒𝑎𝑟𝑠𝑜𝑛 =
3 𝑥 − 𝑀𝑑
𝑠
59. ΚΥΡΤΩΣΗ
• Δύο ή περισσότερες κατανομές συχνοτήτων να
έχουν
– τον ίδιο μέσο αριθμητικό,
– την ίδια τυπική απόκλιση και
– να είναι συμμετρικές,
• αλλά να διαφέρουν ως προς την κύρτωση,
• δηλαδή ως προς την συγκέντρωση των
παρατηρήσεων γύρω από το μέσο –
αιχμηρότητα της κορυφής
• Η κύρτωση (kurtosis) δείχνει κατά πόσο τα
δεδομένα της κατανομής σχηματίζουν έντονη
κορυφή στο μέσο τους.
60. ΣΥΝΤΕΛΕΣΤΗΣ ΚΥΡΤΩΣΗΣ
• Απλά δεδομένα - Κύρτωση πληθυσμού
• Απλά δεδομένα - Κύρτωση δείγματος
2
2
2
)
(
μ
N
x
xi
N
xi
4
4
)
(
μ
4
4
σ
μ
K
𝐾 =
1
(𝑛 − 1)𝑠4
𝑥𝑖 − 𝑥 4
𝑛
𝑖=1
61. ΣΥΝΤΕΛΕΣΤΗΣ ΚΥΡΤΩΣΗΣ
• Ομαδοποιημένα - Κύρτωση πληθυσμού
• Ομαδοποιημένα – Κύρτωση δείγματος
2
2
2
)
(
μ
i
i
i
f
x
f
i
i
i
f
f
4
4
)
(
μ
4
4
σ
μ
K
𝛫 =
1
𝑛 − 1
𝑓𝑖
𝑥𝑖 − 𝑥
𝑠
4
𝑘
𝑖=1
62. • Κατανομές συχνοτήτων που οι τιμές τους
διασπείρονται πάρα πολύ αριστερά και δεξιά του
μέσου αριθμητικού χαρακτηρίζονται ως
πλατύκυρτες και έχουν συντελεστή K<3
(Excel K<0)
Πλατύκυρτη
0
0,5
1
1,5
2
2,5
3
3,5
1 2 3 4 5 6 7 8 9 10 11 12 13
63.
64. • Οι "Κανονικές Κατανομές" που οι τιμές μιας
μεταβλητής ισοκατανέμονται αριστερά και δεξιά
του μέσου αριθμητικού χαρακτηρίζονται ως
Μεσόκυρτες K=3 (Excel K=0)
Μεσόκυρτη
0
0,5
1
1,5
2
2,5
3
3,5
1 2 3 4 5 6 7
65.
66. • Τέλος, κατανομές συχνοτήτων που παρουσιάζουν
μεγάλη συγκέντρωση τιμών στην περιοχή του μέσου
αριθμητικού χαρακτηρίζονται ως Λεπτόκυρτες και
έχουν K>3 (Excel K>0)
Λεπτόκυρτη
0
5
10
15
20
25
1 2 3 4 5 6 7