ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΠΑΤΡΩΝ
ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ
ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕΔΙΑΣΜΟΥ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΩΝ
ΣΥΣΤΗΜΑΤΩΝ
ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ
ΣΤΑΤΙΣΤΙΚΗ ΜΕ ΤΟ ΠΡΟΓΡΑΜΜΑ R
ΚΑΛΑΝΔΡΑΚΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ Α.Μ. 2185
ΚΟΥΚΟΣ ΧΡΗΣΤΟΣ Α.Μ. 2254
ΚΛΑΔΗ ΚΟΚΚΙΝΟΥ ΜΑΙΡΗ Α.Μ. 2364
ΕΠΟΠΤΕΥΩΝ ΚΑΘΗΓΗΤΗΣ: ΚΟΥΝΕΤΑΣ ΚΩΝΣΤΑΝΤΙΝΟΣ
ΠΑΤΡΑ 2013
1
Ευχαριστίες
Η ολοκλήρωση αυτής της έρευνας υλοποιήθηκε με την υποστήριξη ενός
αριθμού ανθρώπων, που χωρίς αυτούς θα ήταν πολύ δύσκολο να επιτευχθεί.
Πρώτα απ’ όλα, θα θέλαμε να ευχαριστήσουμε τον επιβλέποντα της πτυχιακής
εργασίας ,κ. Κωνσταντίνο Κουνετά, για την πολύτιμη βοήθεια του αλλά και
καθοδήγηση του καθ όλη την διάρκεια της δουλειάς μας. Επίσης , είμαστε
ευγνώμων στουςγονείς μας, που ήταν δίπλα μας και μας υποστήριζαν από την
αρχή των σχολικών μας χρόνων μέχρι και τώρα που φτάνουμε στο τέλος.
ΚΑΛΑΝΔΡΑΚΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ
ΚΟΥΚΟΣ ΧΡΗΣΤΟΣ
ΚΛΑΔΗ ΚΟΚΚΙΝΟΥ ΜΑΙΡΗ
2
Περιεχόμενα
Περίληψη .......................................................................................................5
ΚΕΦΑΛΑΙΟ 1................................................................................................6
1.1 Εισαγωγή στην Στατιστική.........................................................................7
1.2Εισαγωγή για το R.....................................................................................9
1.2.1 Γενικές πληροφορίες για το πρόγραμμα................................................9
1.2.2 Γνωριμία με το περιβάλλον................................................................10
1.2.3 Εισαγωγή Δεδομένων στο Πρόγραμμα...............................................17
1.2.4Αποθήκευση και επανάκτηση δεδομένων ............................................18
1.2.5 Συχνά προβλήματα και αντιμετώπιση τους .........................................18
1.3.1 Τελεστές Εκχώρησης και Σύγκρισης .................................................20
1.3.2 Αριθμητικοί Τελεστές........................................................................20
1.4 Βασικές Αριθμητικές Συναρτήσεις της R..................................................21
ΚΕΦΑΛΑΙΟ 2..............................................................................................22
2.1 Εύρεση Μέσου, Διάμεσου και επικρατούσας τιμής...................................23
2.2 Εύρεση τυπικής απόκλισης και διασποράς................................................25
2.3 Εύρεση Τεταρτημόριων...........................................................................26
2.4 Εύρεση συχνοτήτων, σχετικώνσυχνοτήτων ,δημιουργία πίταςκαι
ιστογράμματος..............................................................................................28
2.4.1Εύρεση Συχνοτήτων και Σχετικών Συχνοτήτων ...................................29
2.4.2Δημιουργία Πίτας και Ιστογράμματος .................................................31
2.5 Χρονοσειρά.............................................................................................35
3
2.6 Εύρεση Κλάσεων, δημιουργία ιστογράμματος..........................................37
2.6.1 Εύρεση Κλάσεων, δημιουργία ιστογράμματος ....................................41
2.7 Ελαχίστων Τετραγώνων...........................................................................46
2.8 Άσκηση ελέγχου με γνωστό τον έλεγχο και την τυπική απόκλιση..............53
2.9 Άσκηση ελέγχου με γνωστό μέσο.............................................................55
2.9.1 Εισαγωγή δεδομένων χωρίς διάβασμα από αρχείο...............................55
2.10 Έλεγχος αναλογίας ενός πληθυσμού......................................................56
2.11 Έλεγχος ίσων διασπορών.......................................................................58
2.12 Έλεγχος για το λόγο των διασπορών.....................................................59
2.13 Έλεγχος ίσων διασπορών.......................................................................61
2.14 Έλεγχος Διασποράς...............................................................................62
2.15 Έλεγχος υπόθεσης.................................................................................64
2.16 Έλεγχος υπόθεσης.................................................................................65
2.17 Έλεγχος καλής προσαρμογής .................................................................66
ΚΕΦΑΛΑΙΟ 3..............................................................................................68
3.1 Με λίγα λόγια..........................................................................................69
3.1.2 Πλεονεκτήματα και Μειονεκτήματα του Προγράμματος.....................69
3.1.2.1 Πλεονεκτήματα............................................................................69
1.3.2.2 Μειονεκτήματα............................................................................70
3.1.3 Σύγκριση με άλλα στατιστικά προγράμματα. ......................................71
3.1.4 Προτάσεις. ........................................................................................72
3.2 Συμπεράσματα. .......................................................................................72
Πίνακες ........................................................................................................74
Τιμές των πιθανοτήτων )()()( zZPzZPzΦ  της τυποποιημένης
κανονικής κατανομής )1(0,N για 0z . Για 0z ισχύει )(1)( zΦzΦ  .......74
α................................................................................................................75
Τιμών aνt ; της νt -κατανομής ώστε atPtP aννaνν  )()( ;; ` TT .....................75
ν.............................................................................................................75
4
Tων τιμών 2
aνχ 1; της 2
χ κατανομής για τις οποίες
aχXPχXP a-1;νa-1;ν  )()( 22
. .................................................................77
Tων τιμών 2
a;νχ της 2
χ κατανομής για τις οποίες aχXPχXP a;νa;ν  )()( 22
..................................................................................................................79
Τιμές aννF ;, 21
της F κατανομήςγια τις οποίες
aFXPFXP aννaνν  )()( ;,;, 2121
)( 01.0a . ......................................81
Τιμές aννF ;, 21
της F κατανομήςγια τις οποίες
aFXPFXP aννaνν  )()( ;,;, 2121
)( 01.0a . ......................................83
Τιμές aννF ;, 21
της F κατανομήςγια τις οποίες
aFXPFXP aννaνν  )()( ;,;, 2121
)( 05.0a .......................................85
Τιμές aννF ;, 21
της F κατανομήςγια τις οποίες
aFXPFXP aννaνν  )()( ;,;, 2121
)( 05.0a .......................................87
Βιβλιογραφία................................................................................................89
Ελληνική Βιβλιογραφία..............................................................................89
Ξενόγλωσση Βιβλιογραφία.........................................................................89
Χρήσιμες Ιστοσελίδες................................................................................90
5
Περίληψη
Σκοπός αυτήςτης εργασίας είναι η γνωριμία, η κατανόηση και εξοικείωση με το
πρόγραμμα R σε ότι αφορά θέματα στατιστικής φύσης.
Η έρευνα αυτή θα αναφερθεί ως επί των πλείστων σε βασικούς ορισμούς
της στατιστικής, σε εισαγωγικά θέματα που αφορούν το πρόγραμμα ,αλλά και
στατιστικές μελέτες χρησιμοποιώνταςτο R . Μέσω των ασκήσεων θα δούμε, με
τον πιο απλό τρόπο την επίλυση προβλημάτων χρησιμοποιώντας εντολές και
στην συνέχεια υα εξετάσουμε τα αποτελέσματα τα οποία προέκυψαν.
Τέλος, ακόμα ένας σκοπός αυτήςτης εργασίας είναι η εξαγωγή χρήσιμων
συμπερασμάτων σχετικά με τις στατιστικές μελέτες μέσω του προγράμματος R,
η κριτική του προγράμματος αυτού κάθε αυτού. Η σύγκριση του με αλλά
στατιστικά προγράμματα , αλλά και η διαμόρφωση προτάσεων σχετικά με το
πρόγραμμα.
6
ΚΕΦΑΛΑΙΟ 1
7
1.1 Εισαγωγή στην Στατιστική
Για να καταλάβουμεκαλύτερα τις στατιστικέςμελέτες πάνω στο πρόγραμμα
R θα πρέπει να εξηγήσουμε κάποια βασικά χαρακτηριστικά της Στατιστικής
επιστήμης, όπως είναι οι βασικοί ορισμοί αλλά και τα είδη τους.
Αρχικά, για την διεξαγωγή συμπερασμάτων, εξετάζουμε τα δεδομένα ενός
Πληθυσμού. Ο πληθυσμός είναι ένα σύνολο από στοιχεία, τα οποία και
ερευνούμε. Όπως γίνεται αντιληπτό , ο πληθυσμός μπορεί να είναι αρκετά
μεγάλος και η εξαγωγή συμπερασμάτων να γίνει εξαιρετικά χρονοβόρα αλλά
και αρκετά ζημιογόνα για μια επιχείρηση. Γι’ αυτό τον λόγο, από το σύνολο του
πληθυσμού διαλέγουμε ένα δείγμα, το οποίο είναι ένα υποσύνολο του
πληθυσμού, με σκοπό να γίνει η ανάλυση των μεταβλητών με μεγαλύτερη
ταχύτητα. . Οι μεταβλητές αυτές χωρίζονται σε δυο κατηγορίες : στις ποσοτικές
και στις ποιοτικές μεταβλητές.
Οι ποιοτικές μεταβλητές είναι στοιχεία ενός δείγματος τα οποία δεν
δέχονται αριθμητική μέτρηση. Τέτοιες μεταβλητές μπορεί να απαντάνε σε
ερωτήματα όπως φύλου( Άνδρα, Γυναίκα), οικογενειακής κατάστασης (
Έγγαμος, Άγαμος, Διαζευγμένος), επαγγελματικής κατάστασης κ.τ.λ.
Οι ποσοτικέςμεταβλητέςείναι αυτές πο δέχονται αριθμητική μέτρηση. Με
την σειρά τους χωρίζονται σε άλλες δύο υποκατηγορίες : στις συνεχείς και στις
ασυνεχείς. Συνεχείς ονομάζουμε εκείνες οι οποίες μπορούννα πάρουν τις τιμές
ενός διαστήματος πραγματικών αριθμών, και απαντούν σε ερωτήματα όπως
ύψος , μισθός, κιλά και άλλα. Αντίθετα, ασυνεχείς ονομάζουμε εκείνες οι οποίες
μπορούν να πάρουν ακέραιες μεταβλητές και απαντούν σε ερωτήματα όπως
αριθμό σπιτιών, αριθμό παιδιών και αλλά.
Μια άλλη μελέτη αυτών των δεδομένων μας δίνει αρκετά χρήσιμα στοιχεία
όπως είναι τα μέτρα θέσης και τα μέτρα διασποράς. Μερικά από τα κυριότερα
μέτρα θέσης, όπως η μέση τιμή ή η διάμεσος των μεταβλητών μας ,μας δίνουν
χρήσιμες πληροφορίες για το φάσμα του δείγματος μας. Από την άλλη , το
εύρος, η διακύμανση , η τυπική απόκλιση και ο συντελεστής μεταβολής μας
δίνουνακόμα περισσότερα στοιχεία σχετικά με την κατανομή των μεταβλητών
μας γύρω από την κεντρική τιμή του δείγματος μας. Τα μέτρα θέσης αλλά και
διασποράς περιγράφουν λίγο πολύ τη περιγραφική στατιστική και είναι μια
απλή μέθοδος ελέγχου των μεταβλητών , αλλά ταυτόχρονα αρκετά
8
χρήσιμη για την εξαγωγή συμπερασμάτων
Στην σύγχρονη στατιστική, παρ’ όλα αυτά , για την απόρροια
συμπερασμάτων μπορεί να γίνει με τον έλεγχο υποθέσεων και την εύρεση
διαστημάτων εμπιστοσύνης. Ο έλεγχος υποθέσεων ανήκουν στην επαγωγική
στατιστική ή Στατιστική συμπερασματολογίας και όπως αντιλαμβανόμαστε και
από την ονομασία της σκοπόςτης είναι να καταλήξουμε σε συμπεράσματα μέσα
από την απόρριψη ή την αποδοχή υποθέσεων βάση των στοιχείων- μεταβλητών
που μελετάμε, όπως επίσης και η πιθανότητα εύρεσης σωστών αποτελεσμάτων
μέσα σε ένα συγκεκριμένο πλαίσιο.
9
1.2Εισαγωγή για το R
1.2.1 Γενικές πληροφορίες για το πρόγραμμα
Tο R είναι μια πλατφόρμα την οποία την χρησιμοποιούν για την επεξεργασία
υπολογισμών, γραφημάτων και την εφαρμογή στατιστικών τεχνικών. Οι
δυνατότητες του είναι τεράστιες μίας και ο χρήστης έχει την δυνατότητα να
χρησιμοποιεί έτοιμα προγράμματα τα οποία είναι ενσωματωμένα μέσα σε
πακέτα ή μπορεί να προγραμματίσει και ο ίδιος για την επίλυση πολύπλοκων
προβλημάτων. Η γλώσσα πάνω στην οποία ο χρήστης μπορεί να
προγραμματίσει είναι μια διάλεκτος της S. Αν και το R με την S δεν είναι
απόλυτα συμβατά μεταξύ τους, μπορεί και τρέχει στο R χωρίς καμία αλλαγή.
Στην S οι εντολές αφού διαβαστούν εκτελούνται αμέσως κάτι το οποίο δεν
συμβαίνει στη γλώσσα Fortran. Ένα χαρακτηριστικότων διερμηνέων γλωσσών
,όπως είναι η S,είναι ότι επιτρέπουν την σταδιακή ανάπτυξη. Πιο αναλυτικά, ο
χρήστης δημιουργεί μια συνάρτηση ,την εκτελεί και μετά έχει την δυνατότητα
να δημιουργήσει μια καινούρια η οποία χρησιμοποίει και την πρώτη. Τέλος,ένα
από τα πλεονεκτήματα του R είναι ότι μπορεί να αποκτηθεί δωρεάν ,μέσα από
τις ιστοσελίδες http:/www.r-project.org και http:/www.cran.r-project.org .
10
1.2.2 Γνωριμία με το περιβάλλον
Τα τελευταία περίπου δέκα χρόνια το R έχει γίνει ένα από τα πιο σημαντικά
στατιστικά εργαλεία. Υπολογίζεται μάλιστα ότι πάνω από τρία εκατομμύρια
χρηστές το χρησιμοποιούν τόσο στην ακαδημαϊκή κοινότητα όσο και στον
επαγγελματικό τομέα. Το περιβάλλοντου είναι απλό. Ανοίγονταςτο πρόγραμμα
εμφανίζεται η βασική οθόνη στην οποία βρίσκεται το παράθυρο των εντολών
και η γραμμή εργαλείων.
Πατώντας το κουμπί “file” να μπορούμε να κάνουμε μια σειρά από βασικές
ενέργειες. Αρχικά, μπορούμε να εισάγουμε κώδικα και γενικότερα εντολές από
προηγούμενεςαναλύσεις και εφαρμογές μας. Αυτό επιτυχαίνεται με το source R
code. Μια πολύ σημαντική επιλογή που μας δίνει το πρόγραμμα είναι το “new
script”. Εδώ μπορούμε να γράψουμε τις εντολές που θέλουμε να εκτελέσουμε.
11
Μαυρίζονταςαυτές πουθέλουμε να τρέξουμε και πατώντας με δεξί κλικ πάνω
στον συντάκτη επιλεγούμε το run line ή selection.Μπορούμε να ανοίξουμε έναν
παλιό συντάκτη με το “openscript” και να δούμε τα αρχεία R που μπορούμε να
χρησιμοποιήσουμε του φακέλου που βρισκόμαστε με το “display
file(s)”.Μπορούμε να φορτώσουμε και να αποθηκεύσουμε χώρο εργασίας
(load/save workspace) όπως και να φορτώσουμε ή να αποθηκεύσουμε εντολές
που έχουμε χρησιμοποιήσει στο παρελθόν(load/save history).Με την επιλογή
“change dir” μπορούμε να αλλάξουμε τον φάκελο εργασίας μας. Tέλος,
μπορούμε να εκτυπώσουμε (print) να αποθηκεύσουμε ν δουλειά μας σε μορφή
txt (save to file) και να τερματίσουμε το πρόγραμμα (exit)
12
Στο menu Edit μας παρέχετε η δυνατότητα της αντιγραφής(copy),επικόλλησης
(paste), της επιλογής όλων όσων έχουμε πληκτρολογήσει(select all) πχ εντολές,
όπως επίσης και το να καθαρίσομε το παράθυροτων εντολών. Τέλος, μπορούμε
κάνοντας κλικ πάνω στο “data editor” και “GUI preferences” να ανοίξουμε
έναν συντάκτη δεδομένων για τα δεδομένα που είναι υπό τη μορφή πλαισίου
δεδομένων και να τα επεξεργαστούμε και να αλλάξουμε το πώς φαίνεται το
περιβάλλον στο όποιο δουλεύουμε αντίστοιχα.
13
Στο “View” μπορούμε να την εμφανίσουμε ή όχι το την μπάρα τα βασικά
εργαλεία δουλειάς(toolbar) από το περιβάλλον εργασίας όπως επίσης και τις
πληροφορίες για την έκδοση του προγράμματος πουχρησιμοποιείτε (statusbar).
Πατώντας το κουμπί “misc”μπορούμε να σταματήσουμε το τρέχον πρόγραμμα
(stop current computations) ή όλα τα προγράμματα που εκτελούνται(stop all
computations).Επίσης, έχουμε την δυνατότητα να σταματήσουμε την εκτύπωση
των αποτελεσμάτων στην οθόνη(buffered output), να δούμε όλα τα αντικείμενα
και τις αναλύσεις που έχουμε κάνει (list objects) και να τα διαγράψουμε
(remove all objects). Τέλος , να δούμε τις βιβλιοθήκες(libraries) και τα πλαίσια
(data frames) που υπάρχουν στο περιβάλλον εργασίας μας.
14
Από το μενού packages ο χρήστης μπορεί να φορτώσει βιβλιοθήκες που ειδή
υπάρχουν(load packages), να κατεβάσει και να εγκαταστήσει βιβλιοθήκες από
πρότυπα CRAN(install package(s)),να εγκαταστήσει από zip αρχεία μέσα από
τον σκληρό του δίσκο (install package(s) from local zip files) και να τις
ενημερώσει με πιο πρόσφατες εκδοχές τους. Τέλος ο χρήστης μπορεί να
επιλέξει από πιο μέρος του κόσμου θα κατεβάσει μέσω των προτύπων CRAN
τις βιβλιοθήκες(set CRAN mirror) και να επιλέξει ,περά από το CRAN, από
ποιόν διανομέα θέλει να τις κατεβάσει(set repositories).
15
Με το μενού windows μπορεί κάποιος να μετακινηθεί μεταξύ των παραθύρων
των οποίων χρησιμοποίει εκείνη την στιγμή. Επίσης μπορεί να τα τοποθετήσει
όπως επιθυμεί είτε κάθετα(Tile Vertically ) είτε οριζόντια( Tile Horizontally).
16
Από το μενού Help ο χρήστης μπορεί να βοηθήσει για όλες τις ιδιότητες του
πακέτου. Πιο αναλυτικά:
 Στο Console υπάρχουν πληροφορίες για την βασική οθόνη του
προγράμματος R.
 Στα FAQ on R,FAQ on R for Windows υπάρχουν απαντήσεις σε
ερωτήσεις που γίνονται συχνά για την R.
 Στο Manuals (in PDF) έχουμε το βασικό εγχειρίδιο χρήσης της R σε
PDf.
 Στο R functions(text) έχουμε πληροφορίες για τις ήδη υπάρχουσες
εντολές της R.
 Με το Html help μεταφερόμαστε σε έναν διαδικτυακό τόπο όπου μας
παρέχει πληροφορίες για το πρόγραμμα μας.
 Από το Search help μπορούμε να ψάξουμε όποιο αρχείο επιθυμούμε να
βρούμε .
 Στο Search.r-project.org μπορούμε να αναζητήσουμε όποιον σύνδεσμο
στο διαδίκτυο θέλουμε.
 Από το Apropos μπορούμε να αναζητήσουμε εντολές που είναι ήδη
φορτωμένες στην R.
 Από το R project home page μεταφερόμαστε στην ιστοσελίδα της R.
 Από το CRAN home page μεταφερόμαστε στην ιστοσελίδα της CRAN.
 About μας παρέχει πληροφορίες για τα δικαιώματα και την τρέχον
έκδοση του πακέτου μας.
17
1.2.3 Εισαγωγή Δεδομένων στο Πρόγραμμα
Το R όντας ένα πρόγραμμα με πολλές δυνατότητες σου παρέχει την δυνατότητα
να του φορτώσεις δεδομένα από πολλούς διαφορετικούς τύπους αρχείων. Με
την χρήση διαφορετικών βασικών εντολών μπορούμε να εισάγουμε δεδομένα
από τους εξής τύπους αρχείων: Excel,Minitab,SPSS,Table,CSV, Stata, systat .
Πιο αναλυτικά, αρκετά συχνά τα δεδομένα μας είναι σε μορφή Excel. Για να
τα εισάγου στο R χρησιμοποιούμε την εντολή data<-read.xls(“data.xls”), όπου
με το “data<-” εισάγουμε την τιμή μας στο αντικείμενο data. Επίσης πολύ
σημαντικό είναι το ότι άμα δεν το αρχείο μας δεν βρίσκεται στον ίδιο φάκελο
με το πρόγραμμα μας τότε μέσα στην παρένθεση θα πρέπει να γράψουμε το
μονοπάτι της ακριβής τοποθεσίας του αρχείου μας .Για παράδειγμα αν τα
18
δεδομένα μας είναι στο σκληρό δίσκο C στον φάκελο παράδειγμα τότε η εντολή
που θα πρέπει να γράψουμε θα είναι η εξής
data<-read.xls ("C:παράδειγμαdata.xlsx").
Εάν τα δεδομένα μας είναι σε μορφή Minitab ο τρόπος διαβάσματος του
αρχείου θα είναι ο ίδιος με μια μικρή διαφορά. Θα γράψουμε data<-
read.mtp(“data.mtp”) και σε περίπτωση πουτο αρχείο μας είναι σε διαφορετικό
φάκελο θα πράξουμε με τον ίδιο τρόπο .Χρησιμοποιώντας το προηγούμενο
παράδειγμα θα έχω : data<-read.mtp("C:παράδειγμαdata.mtp")
Με τον ίδιο τρόπο περνάμε τα δεδομένα στο πρόγραμμα μας με την μόνη
διαφορά τα τελειώματα τα όποια θα αντιστοιχούν στον τύπο του αρχείου που
είναι αποθηκευμένα. Αν είναι αποθηκευμένα σε αρχείο SPSS τότε θα έχω
data<- read.spss(“data.spss”),αν είναι σε αρχείο table ή csv ή Stata ή systat
θα έχω data<-read.table(“data.txt”) ,data<- read.csv(“data.csv”), data<-
read.dta(“data.dta”) και data<- read.systat(“data.dta”)αντίστοιχα.
Τέλος, στην συγκεκριμένη εργασία θα σας δείξουμε πώς εισάγουμε τα
δεδομένα μας χωρίς να τα διαβάσουμε από κάποιο άλλο αρχείο(
1.2.4Αποθήκευση και επανάκτηση δεδομένων
Μια άλλη δυνατότητα που μας προσφέρει το R είναι η αποθήκευση των
αντικειμένων. Για την αποθήκευση τους χρησιμοποιούμε την εντολή
save(data, file=”data.Rdata”, ascii=TRUE)
όπου το data είναι το όνομα του αρχείου μας και οπου το data.Rdata είναι το
όνομα του φάκελου που θα αποθηκευτεί.H παράμετρος “ascii=TRUE” είναι
προαιρετική στην περίπτωση που θέλουμε να χρησιμοποιήσουμε το
αποθηκευμένο αντικείμενο και σε αλλά στατιστικά πακέτα.
1.2.5 Συχνά προβλήματα και αντιμετώπιση τους
Τα προβλήματα τα οποία μπορεί να αντιμετωπίσει κάποιος στο πρόγραμμα R
δεν είναι πολλά. Οι λύσεις αυτών των προβλημάτων βρίσκονται σχετικά
19
εύκολα, κάτι που κάνει το πρόγραμμα ακόμα πιο αξιόπιστο και λειτουργικό.
Τα πιο συνήθη λάθη-προβληματα που μπορεί να αντιμετωπίσει κάποιος
είναι αυτά της ορθογραφίας. Το πρόγραμμαR είναι ευαίσθητο σε κεφαλαία και
μικρά γράμματα και όπως γίνεται αντιληπτό καμία εντολή δεν θα
πραγματοποιηθεί αν δεν έχει διατυπωθεί με τον σωστό τρόπο. Ακόμα πιθανό
είναι να έχει δοθεί στο πρόγραμμα κάποια εντολή αλλά με κάποιο λάθος
γράμμα η συμβολισμό. Στις δύο αυτές περιπτώσεις το πρόγραμμα βγάζει ένα
μήνυμα λάθους (error) βοηθώντας έτσι τον χρήστη να καταλάβει ποίο
ακριβώς είναι το πρόβλημα.
Παρ’ όλα αυτά, τα λάθη λογικής είναι αυτά τα οπoία δυσκολεύουν
περισσότεροαπό αυτά της ορθογραφίας . Συχνά στο πρόγραμμα γίνεται χρήση
εντολών οι οποίες μπορεί να είναι σωστές αλλά να μας δίνουν διαφορετικό
αποτέλεσμα από αυτό που θέλουμε ή από αυτό που περιμέναμε να δούμε. Τα
λάθη λογικής είναι συχνό φαινόμενο στις γλώσσες προγραμματισμού και το R
δεν αποτελεί εξαίρεση. Ο χρήστης θα πρέπει να είναι ιδιαίτερα προσεκτικός
ώστε να έχει το επιθυμητό αποτέλεσμα.
Τέλος, υπάρχουνκαι τα ανθρώπιναλάθη όπως η λάθος καταχώριση αρχείων
,η ονομασία εvός αρχείου με το ίδιο όνομα με ενός άλλου ή η χρησιμοποίηση
λάθος βιβλιοθήκης(package).
20
1.3Τελεστές
1.3.1 Τελεστές Εκχώρησης και Σύγκρισης
Με τους Τελεστές εκχώρησης όπως μας προϊδεάζει και η λέξη έχουμε την
δυνατότητα να δώσουμε τιμές σε αντικείμενα και μεταβλητές .Οι Τελεστές
σύγκρισης μας βοηθούν στο να συγκρίνουμε δυοτιμές. Αυτοί οι Τελεστές είναι
οι πιο κάτω.
Τελεστής Ιδιότητα
<- Το αριστερό μέρος της σχέσης μας παίρνει την τιμή
-> Το δεξί μέρος της σχέσης μας παίρνει την τιμή
< Μεγαλύτερο
> Μικρότερο
<= Μικρότερο ή ίσο
>= Μεγαλύτερο ή ίσο
!= Όχι ίσο
== Ίσο
1.3.2 Αριθμητικοί Τελεστές
Με αυτούς τους Τελεστές μπορούμε να εκτελέσουμε τις βασικές αριθμητικές
πράξεις- λειτουργιές , δηλαδή, πρόσθεση ,αφαίρεση, πολλαπλασιασμός όπως
και να υψώσουμε έναν αριθμό σε δύναμη .Πιο αναλυτικά:
Σύμβολα Πράξη
+ Πρόσθεση
- Αφαίρεση
* Πολλαπλασιασμός
/ Διαίρεση
^ Ύψωση σε δύναμη
%/% Ακέραια Διαίρεση
%% Υπόλοιπο Διαίρεσης
21
1.4 Βασικές Αριθμητικές Συναρτήσεις της R
Συνάρτηση Πράξη
sqrt() Τετραγωνική ρίζα
abs() Απόλυτη τιμή
log() Λογάριθμος
cos() Συνημίτονο
sin() Ημίτονο
tan() Eφαπτoμένη
acos() Τόξο συνημίτονου
asin() Τόξο ημιτόνου
atan() Τόξο εφαπτομένης
gamma() Συνάρτηση Γάμμα
lgamma() Λογάριθμος της συνάρτησης Γάμμα
beta() Συνάρτηση Βήτα
floor() Προηγούμενος ακέραιος
ceiling() Επόμενος ακέραιος
factorial() Παραγοντικό
choose() Συνδυασμοί
lchoose() Λογάριθμος συνδυασμών
exp() Εκθετική Συνάρτηση
22
ΚΕΦΑΛΑΙΟ 2
23
2.1 Εύρεση Μέσου, Διάμεσου και επικρατούσας τιμής
Στο συγκεκριμένο παράδειγμα θα ασχοληθούμε με την εύρεση Μέσου
,Διάμεσου και επικρατούσας τιμής ταχυτήτων διερχόμενων αυτοκίνητων.
Όπως αναφέραμε και στο πρώτο κεφάλαιο με την εντολή read.csv εισάγουμε τα
δεδομένα μας. Με το “kef4<-“ εισάγουμε την τιμή μας στο αντικείμενο
kef4,κάτι το οποίο θα μας φανεί πολύ χρήσιμο στην συνέχεια για την αποφυγή
λαθών. Τα αρχεία CSV χωρίζονται μεταξύ τους με κόμμα και οι περισσότερες
ασκήσεις έχουν και τίτλους. Για παράδειγμα όπως θα δούμε σε αυτήν την
άσκηση έχουμε τον τίτλο Speeds.Γι αυτό τον λόγο θα πρέπει στην εισαγωγή
των δεδομένων μας να το επισημάνουμε με κάποιους παραμέτρους . Πιο
αναλυτικά, για τον λόγο που τα δεδομένα μας χωρίζονται με κόμμα θα πρέπει
να βάλουμε την παράμετρο <<sep=”,”>>.Το “sep” βγαίνει από την αγγλική
λέξη separated που σημαίνει χωρίζονται το οποίο το βάζουμε να ισούται με το
κόμμα. Με την παράμετρο <<header=T>>,όπου “T” βγαίνει από την αγγλική
λέξη TRUE που σημαίνει αλήθεια και “header” σημαίνει Τίτλος, ορίζουμε ότι
στα δεδομένα μας υπάρχει τίτλος για να είναι σε θέση να τον διαβάσει. Επίσης
,θα πρέπει να δηλώσουμε την ακριβή τοποθεσία του αρχείου που θέλουμε να
εισάγουμε.
Τέλος, με την εντολή str και στην περίπτωση αυτής της άσκησης str(kef4)
βλέπουμε τα δεδομένα που έχουμε εισάγει.
Για να βρούμε τον μέσο χρησιμοποιούμε την εντολή “mean” που βγαίνει από
την αγγλική λέξη mean και σημαίνει “μέσος”. Στην συνέχεια, ανοίγουμε
παρένθεση και βάζουμε το όνομα του αντικειμένου που του εισάγαμε την τιμή
κατά το διάβασμα”kef4”. Μετέπειτα χρησιμοποιούμε το σύμβολο “$”και μετά
εισάγουμε το όνομα της μεταβλητής που μας ενδιαφέρει. Στην περίπτωση της
24
άσκησης μας “Speeds”.Το αποτέλεσμα που εμφανίζεται στην οθόνη
[1]3290833 είναι ο μέσος των 120 παρατηρήσεων της άσκησης μας.
Για να βρούμε την διάμεσο χρησιμοποιούμε την εντολή “median” που βγαίνει
από την αγγλική λέξη median και σημαίνει “διάμεσος”. Στην συνέχεια,
ανοίγουμε παρένθεση και βάζουμε το όνομα του αντικειμένου που του
εισάγαμε την τιμή κατά το διάβασμα”kef4”. Μετέπειτα χρησιμοποιούμε το
σύμβολο “$”και μετά εισάγουμε το όνομα της μεταβλητής που μας ενδιαφέρει.
Στην περίπτωση της άσκησης μας “Speeds”.Το αποτέλεσμα που εμφανίζεται
στην οθόνη [1]32 είναι η διάμεσος των 120 παρατηρήσεων της άσκησης μας.
Για την επικρατούσα τιμή χρησιμοποιώ την εντολή <<table>> ,αφού πρώτα
την εισάγουμε ένα νέο αντικείμενο που θα έχει ένα όνομα που θα τα έχουμε
ορίσει εμείς, στην περίπτωση μας “ep.timh”. Μετά ανοίγουμε παρένθεση και
γράφουμε την εντολή <<as.vector>> και μέσα σε μια καινούρια παρένθεση το
πρώτο αντικείμενο που είχαμε δηλώσει κατά το διάβασμα “kef4”.Tέλος
κλείνουμε τις παρενθέσεις και πατάμε “enter”.Τέλος ,γράφουμε το όνομα του
νέου μας αντικειμένου και μας εμφανίζει το από κάτω πίνακα.
25
Στον πίνακα παρατηρούμε ότι έχουμε δυο σειρές. Στην πάνω σειρά,
εμφανίζονται οι ταχύτητες των διερχομένων αυτοκίνητων που έχουμε στα
δεδομένα μας. Στην δεύτερη,βλέπουμε κάποιους αριθμούς ,στο συγκεκριμένο
παράδειγμα οι τιμές τους κυμαίνονται από1 ως και 8. Αυτές οι τιμές μας
σηματοδοτούνπόσες φορέςη κάθε ταχύτητα έχει εμφανιστεί. Για παράδειγμα η
ταχύτητα εξήντα 60 έχει εμφανιστεί μόνο μια (1) φορά, ενώ η εξήντα οκτώ(68)
έχει εμφανιστεί δυο(2).Ηταχύτητα εκείνη που έχει εμφανιστεί τις περισσότερες
φορές ,είναι και η επικρατούσα τιμή. Μιλώντας με τις τιμές της άσκησης,
έχουμε δύο επικρατούσεςτιμές, την ενενήντα οκτώ(98)και την εκατόν δυο(102)
οι οποίες παρουσιάστηκαν οκτώ φορές η κάθε μια.
2.2 Εύρεση τυπικής απόκλισης και διασποράς
Στο συγκεκριμένο παράδειγμα θα ασχοληθούμε με την εύρεση της τυπικής
απόκλισης και της διασποράς του αριθμού των αφίξεων των πελατών στα
ταμεία του καταστήματος .
Αρχικά, καταχωρούμετα δεδομένα μας όπως γνωρίζουμε και χρησιμοποιούμε
την εντολή <<str>>για να δούμε τα δεδομένα μας.
Για να βρούμε την τυπική απόκλιση χρησιμοποιούμε την εντολή “ sd “που
βγαίνει από τις αγγλικές λέξεις standart deviation και σημαίνει “τυπική
απόκλιση”. Στην συνέχεια, ανοίγουμε παρένθεση και βάζουμε το όνομα του
αντικειμένου που του εισάγαμε την τιμή κατά το διάβασμα”kef4”. Μετά
χρησιμοποιούμε το σύμβολο “$”και στην συνέχεια εισάγουμε το όνομα της
μεταβλητής που μας ενδιαφέρει. Στην περίπτωση της άσκησης μας
“Arrivals”.Το αποτέλεσμα που εμφανίζεται στην οθόνη [1]1500639 είναι η
τυπική απόκλιση των 150 παρατηρήσεων της άσκησης μας.
26
Για να βρούμε την διασπορά χρησιμοποιούμε την εντολή “var”που βγαίνει από
την αγγλική λέξη variance και σημαίνει “διασπορά”. Στην συνέχεια, ανοίγουμε
παρένθεση και βάζουμε το όνομα του αντικειμένου που του εισάγαμε την τιμή
κατά το διάβασμα”kef4”. Μετά χρησιμοποιούμε το σύμβολο “$”και στην
συνέχεια εισάγουμε το όνομα της μεταβλητής που μας ενδιαφέρει. Στην
περίπτωση της άσκησης μας “Arrivals”.Το αποτέλεσμα που εμφανίζεται στην
οθόνη [1]2251918 είναι η διασπορά των150 παρατηρήσεωντης άσκησης μας.
2.3 Εύρεση Τεταρτημόριων
Στο επόμενο παράδειγμα εξετάζουμε τουςχρόνους δέσμευσης των τραπεζιών
,μιας καφετέριας, διακοσίων ομάδων πελατών σε ένα εστιατόριο
Αρχικά, καταχωρούμετα δεδομένα μας όπως γνωρίζουμε και χρησιμοποιούμε
την εντολή <<str>> για να τα δούμε.
27
Για να βρούμε τα τεταρτημόρια χρησιμοποιούμε την εντολή “quantile” που
βγαίνει από την αγγλική λέξη quartile και σημαίνει “τεταρτημόριο”. Στην
συνέχεια, ανοίγουμε παρένθεση και βάζουμε το όνομα του αντικειμένου που
του εισάγαμε την τιμή κατά το διάβασμα”kef4”. Μετά χρησιμοποιούμε το
σύμβολο “$”και στην συνέχεια εισάγουμε το όνομα της μεταβλητής που μας
ενδιαφέρει. Στην περίπτωση της άσκησης μας “Times”.Το αποτέλεσμα που
εμφανίζεται στην οθόνη μας είναι ο χρόνος δέσμευσης των τραπέζιων της
καφετέριας ,με βάση τα τεταρτημόρια, των 200 πελατών μας.
Αναλύοντας το αποτέλεσμα της εντολής quantile(kef4$Times)βλέπουμε ότι
εμφανιστήκαν το πρώτο ,το δεύτερο, το τρίτο και τέταρτο τεταρτημόριο.
Βλέπουμε πως το πρώτο έχει ελάχιστη τιμή το 21(0% )και μέγιστη 26(25%). Εν
συνεχεία ,το δεύτεροτεταρτημόριο έχει ελάχιστη τιμή το 26(25%),δηλαδή την
μεγίστη του προηγούμενου και μεγίστη το 28.5(50%). Οι τιμές του τρίτου
κυμαίνονται από το 28,5(50%) μέχρι και το 32(75%). Τέλος, το τέταρτο
τεταρτημόριο έχει τιμές από το 32(75%) μέχρι και το 55(100%). Αυτό που
παρατηρούμε είναι ότι το 50% των πελατών δεσμεύει ένα τραπέζι από 32 έως
και 55 λεπτά. Επίσης, μια άλλη παρατήρηση που μπορούμε να κάνουμεείναι ότι
μεταξύ του τρίτου και τέταρτου η διαφορά είναι πολύ μεγάλη σε αντίθεση με
την διαφορά των άλλων δυο τεταρτημορίων.
28
2.4 Εύρεση συχνοτήτων, σχετικών συχνοτήτων ,δημιουργία πίτας
και ιστογράμματος
Στο συγκεκριμένο παράδειγμα θα ασχοληθούμε με την εύρεση συχνοτήτων,
σχετικών συχνοτήτων αλλά και με την δημιουργία ιστογράμματος και
δημιουργία πίτας.
Αρχικά, περνάμε τα δεδομένα μας. Επειδή, το αρχείο μας είναι csv ,όπως είχαμε
πει και στο προηγούμενο κεφάλαιο θα γράψουμε read.csv και το μονοπάτι που
βρίσκεται το αρχείο μας μέσα στην παρένθεση. Στην συνέχεια, με την εντολή str
βλέπουμε τα δεδομένατα οποία εισάγαμε με την προηγούμενο διάβασμα μας.
Η δυνατότητα αλλαγής ονομάτων είναι σημαντική γιατί μας δίνει την
δυνατότητα καλύτερης κατανόησης της άσκησης ,αποφυγήςσημαντικών λαθών
και είναι και οπτικά πιο όμορφη. Για να μπορέσουμε να αλλάξουμε το όνομα
που θα φαίνεται στα διαγράμματα μας θα πρέπει ,πρώτα, να δηλώσουμε την
στήλη στην οποία θέλουμε να αλλάξουμε τα ονόματα των δεδομένων της ως
χαρακτήρα. Αυτό το κάνουμε με την εντολή x$Brand<-as.character(x$Brand).
Εν συνεχεία, με την εντολή x$Brand[x$Brand == “1”] <-“bud light” το
πρόγραμμα αυτόματα ψάχνει στην στήλη Brand και όποιος χαρακτήρας είναι
ίσος με το ένα τον άσσο του δίνει το όνομα bud light(για το συγκεκριμένο
παράδειγμα). Με τον ίδιο τρόπο, αλλάζοντας όμωςκάθε φορά το όνομα που θα
πρέπει να βρει το πρόγραμμα και το νέο που θα πάρει την θέση του μπορούμε
να αλλάξουμε τα ονόματα (όπως βλέπουμε και ποιο κάτω).
29
2.4.1Εύρεση Συχνοτήτων και Σχετικών Συχνοτήτων
Η εντολή attach() είναι μια πολύ απλή εντολή αλλά στην ουσία πάρα πολύ
χρήσιμη. Με αυτήν μπορούμε να “μπούμε”μέσα στον αρχείο x και να κάνουμε
όποια ενέργεια θέλουμε χωρίς να χρειαστεί να το ξαναγράψουμε (θα την δούμε
πιο αναλυτικά και στο παράδειγμα 2.6)
Με το table() το R μας βγάζει τον πίνακα των συχνοτήτων. Με την αλλαγή που
κάναμε πριν στα ονόματα ο πίνακας εμφανίζεται όπως τον βλέπουμε από κάτω,
βοηθώνταςμας έτσι να καταλάβουμε ακριβώςσε ποιο τύπο μπύρας ανήκουν οι
τιμές.
Παρατηρούμεότι οι περισσότεροι τελειόφοιτοι προτιμούντην μπύρα bud light,
δεύτερηκαι τρίτη επιλογή του είναι η coors light και miller light αντίστοιχα ενώ
στο τέλος βρίσκεται η Michelob light.
30
Για να εμφανίσουμε τον πίνακα των σχετικών συχνοτήτωνπληκτρολογούμε την
εντολή prop.table(s.suxnothtwn). Πριν από αυτό όμως θα πρέπει για δική μας
διευκόλυνση να δώσουμε σε ένα όνομα της δικής μας επιλογής( στο
συγκεκριμένο παράδειγμα s.suxnothtwn) την τιμή από τη δημιουργία του
πίνακα συχνοτήτων, δηλαδή, table(Brand).
Στην περίπτωση που θέλουμε τον πίνακα σχετικών συχνοτήτων μας
πολλαπλασιασμένο επί τοις %,δεν μένει παρά να γράψουμε την ίδια εντολή με
την προηγούμενη αλλά πολλαπλασιασμένη με το 100. Δηλαδή,
prop.table(s.suxnothtwn)*100
31
2.4.2Δημιουργία Πίτας και Ιστογράμματος
Για να δημιουργήσουμε μια Πίτα η εντολή που θα χρειαστεί κάποιος είναι η
pie(). Μέσα στην παρένθεση αρχικά μπαίνει το όνομα για τις τιμές του οποίου
θέλουμε να δημιουργήσουμε την πίτα(στο παράδειγμα μας piechart, μιας και το
έχουμε ορίσει με αυτό το όνομα δύο εντολές πιο πάνω). Μετά δηλώνουμε τα
ονόματα που θα έχει μέσα η πίτα μας . Εδώ , έχουμε ορίσει με το όνομα lbls τις
τιμές και τα ονόματα που θα έχει στην προηγούμενη εντολή . Τέλος, είναι η
περιγραφή για την πίτα που φτιάχνουμε.Η εντολή για τη δημιουργία μια τέτοιας
πίτας, όπως το βλέπουμε και παρακάτω, είναι pie(piechart, labels=lbls, main=
“Pie chart of Speciesn(with sample sizes)”).
32
Το κυκλικό διάγραμμα ή πίτα, απεικονίζει ποσοστά. Όπως μπορούμε να δούμε
περίπου το ένα τρίτο των τελειοφοίτων προτιμούν την μπύρα Bud Light με
ποσοστό 31.6%. Ενώ ακολουθούν με ποσοστό 21.8% και 20.7% οι μπύρες
Coors και Miller αντίστοιχα.
33
Στην περίπτωση που κάποιος θέλει να δημιουργήσει ένα κυκλικό διάγραμμα
αλλά σε τρισδιάστατη μορφή θα πρέπει για αρχή να κατεβάσει και να
εγκαταστήσει την βιβλιοθήκη (package) με την ονομασία plotrix, έτσι ώστε να
μπορέσει το πρόγραμμα να εμφανίσει το διάγραμμα με την μορφή που το
θέλουμε. Αν δεν φορτωθεί η συγκεκριμένη βιβλιοθήκη ,το R, θα βγάλει μήνυμα
λάθους. Η εντολή που θα χρειαστούμε για το τρισδιάστατο κυκλικό διάγραμμα
είναι pie3D(). Μέσα στην παρένθεση όπωςκαι πριν τοποθετούμε το όνομα για
του οποίου τις τιμές θέλουμε να δημιουργήσουμε τη πίτα, τα ονόματα που θα
έχει το διάγραμμα. Η μόνη διαφορά είναι ότι του ορίζουμε το ύψος που
θέλουμε να έχει το διάγραμμα μας από το explode(στο συγκεκριμένο
παράδειγμα explode=0.1)
34
Για να δημιουργήσουμε ένα ραβδόγραμμα δεν μένει παρά να γράψουμε την
εντολή barplot(), όπου μέσα στην παρένθεση μπαίνει το όνομα για του οποίου
τις τιμές θέλουμε να φτιάξουμε το συγκεκριμένο παράδειγμα.
Το ραβδόγραμμααναπαριστά τουςαπόλυτουςαριθμούς.Όπως παρατηρούμε οι
περισσότεροι τελειόφοιτοι προτιμούν την μπύρα Bud και ακολουθούνοι μπύρες
Coors και Miller, ενώ τελευταία επιλογή τους θα ήταν η μπύρα Michelob.
Στην περίπτωση που κάποιοςθέλει να δημιουργήσει ένα ραβδόγραμμα αλλά με
τους ράβδους να είναι οριζόντια, τότε, το μόνο που πρέπει να κάνει είναι να
γράψει την ίδια εντολή με πριν, με την μόνη διαφορά ότι θα πρέπει να του
ορίσουμε ότι το θέλουμε να είναι σε οριζόντια μορφή. Αυτό το καταφέρνουμε
με το horiz= T. Το horiz βγαίνει από την αγγλική λέξη horizontally και σημαίνει
οριζόντια και το βάζουμε να ισούται με T δηλαδή True(αλήθεια).
35
2.5 Χρονοσειρά
Στο αυτό το παράδειγμα θα μετατρέψουμε μια αριθμητική συνάρτηση σε
αντικείμενο χρονοσειράς και θα δημιουργήσουμε ένα ραβδόγραμμα που θα
παρουσιάζει τις τιμές της βενζίνης.
Αρχικά, καταχωρούμετα δεδομένα μας όπως γνωρίζουμε και χρησιμοποιούμε
την εντολή <<str>>για να δούμε τα δεδομένα μας.
Με την εντολή ts() θα μετατρέψουμε την αριθμητική συνάρτηση σε ένα
αντικείμενο χρονοσειράς. Η μορφή της είναι ts(start=,end=, frequency=) όπου
το start και το end είναι η πρώτη και η τελευταία παρατήρηση και frequency
36
είναι ο αριθμός των παρατηρήσεων ανά μονάδα χρόνου( 1=ετησία, 4= τρίμηνη,
12= μηνιαία, κλπ.)
Για να δημιουργήσει κανείςένα γραμμικό διάγραμμα μπορεί να το κάνει με την
εντολή plot.ts(). Μέσα στην παρένθεση μπαίνει το όνομα που έχουμε θέσει
εμείς για τα δεδομέναμας και το όνομα για τις τιμές που θέλουμε να φτιάξουμε
το συγκεκριμένο διάγραμμα.
37
Όπως φαίνεται στο διάγραμμα, η τιμή της βενζίνης στα τέλη της δεκαετίας του
1970 ανέβηκε στο κοντά στο 1,5 δολάρια,μένοντας σε αυτά τα επίπεδα μέχρι το
2000. Στην συνέχεια, στους μήνες 290 μέχρι 340, άρχισε να παρουσιάζει
μεγάλες αυξήσεις φτάνοντας περίπου στα 3 δολάρια.
2.6 Εύρεση Κλάσεων, δημιουργία ιστογράμματος
Σε αυτό το παράδειγμα θα δούμε πως μπορούμε να δημιουργήσουμεκλάσεις με
το πρόγραμμαR και ιστόγραμμα. Οι τιμές που παρουσιάζονται πιο κάτω είναι
μεταξύ εταιριών τηλεφωνίαςοι οποίες ανταγωνίζονται η μία την άλλη.
38
Αρχικά, καταχωρούμετα δεδομένα μας όπως γνωρίζουμε και χρησιμοποιούμε
την εντολή <<str>>για να δούμε τα δεδομένα μας.
Με την εντολή “Gefort=cut()”χωρίζουμε το δείγμα μας σε κλάσεις. Σε αυτό το
παράδειγμα όπουοι παρατηρήσεις μας είναι 200 και με το τύπο που δείξαμε πιο
πάνω στην παράγραφο ,χωρίζουμε το δείγμα μας σε 8 κλάσεις ,γράφοντας
“Geffort=cut(kef2$Bills, 8)”. Στην συνέχεια, με την βοήθεια της εντολής
“table()” εμφανίζουμε τον πινάκα όπου τα στοιχεία μας πλέον είναι χωρισμένα
σε ομάδες.Επίσης , σε αυτόν τον πίνακα βλέπουμε πόσες παρατηρήσεις έχει η
κάθε ομάδα.
Με την εντολή “attach()” που στα Ελληνικά σημαίνει συνάπτω καταφέρνουμε
να μπούμε μέσα στα δεδομένα του “kef2”.Για παράδειγμα, στην προηγούμενη
εντολή είχαμε γράψει “Geffort=cut(kef2$Bills, 8)”.Μπορούσαμε να
πληκτρολογήσουμε πριν από αυτόν τον τύπο το “attach(kef2)”,όποτε τώρα η
εντολή μας θα γραφόταν έτσι:
attach(kef2)
Geffort=cut(Bills, 8)
39
Με αυτόν τον τρόπο γλυτώνουμε να γραφούμε το “kef2” ή όποιο άλλο όνομα
έχουμε δώσει εμείς στο αντικείμενο μας και μας γλυτώνει πολλές φορές από
απρόσεκτα λάθη. Πιο κάτω θα την δούμε την εντολή αυτή στην πράξη.
Για να δημιουργήσουμε ένα Ιστόγραμμα πρέπει να χρησιμοποιήσουμε την
εντολή “hist(Bills,breaks=bins)”.To “hist” ,βγαίνει από το histogram, δηλαδή,
ιστόγραμμα ,με το “Bills” του ορίζουμε για πια μεταβλητή μας θέλουμε να
κάνουμε το διάγραμμα αυτό και τέλος με το “break=bins” του θέτουμε τα όρια
ώστε να αλλάξει μπάρα στο διάγραμμα. Αυτό το επιτυγχάνουμε με την εντολή
“bins=seq(min(Bills),max(Bills)+15,15).To “bins” είναι όνομα που του ορίσαμε
εμείς, το “seq” βγαίνει από την αγγλική λέξη “Sequence” που σημαίνει
“ακολουθία” και μέσα σε αυτό θέτουμε το ελάχιστο(min),το μέγιστο(max) και
την διαφορά που έχουν μεταξύ τους οι κλάσεις.
40
Το ιστόγραμμα μας δίνει μια καθαρή εικόνα της κατανομής των λογαριασμών.
Οι μισοί περίπου από τους μηνιαίους λογαριασμούς αφορούν τα μικρά ποσά,
δηλαδή από 0 ως 30,λίγοι βρίσκονται στις ενδιάμεσες τιμές, από 30 μέχρι και 75
και ένα αρκετά σημαντικόμέρος των λογαριασμών είναι στο ανώτεροδιάστημα
των τιμών, από 75 μέχρι το 120.
Η εταιρία θα πρέπει να μάθει περισσότερα για τους πελάτες οι οποίοι κάνουν
μεγάλους λογαριασμούς. Οι συγκεκριμένοι πελάτες μπορούν να αποτελέσουν
στόχο για προσφορές από ανταγωνιστές με πιο ελκυστικές τιμές. Με αυτές τις
πληροφορίες θα μπορέσει η εταιρεία να τους συγκρατήσει( τους πελάτες της)
αλλά και με τις κατάλληλες προσφορές να προσελκύσει και πελάτες από τους
ανταγωνιστές της.
41
2.6.1 Εύρεση Κλάσεων, δημιουργία ιστογράμματος
Εδώ θα δούμε ένα ακόμα παράδειγμα για το πώς μπορούμενα δημιουργήσουμε
κλάσεις. ¨Ένας φοιτητήςδιαθέτει κάποια χρήματα και μπορεί να τα διαθέσει σε
μία από τις δύο επενδύσεις που έχει στην επιλογή του. Με την βοήθεια του
ιστογράμματος θα συγκρίνει τις δύο επιλογές του και θα επιλέξει την καλύτερη
γι’ αυτών επένδυση.
Για την πρώτη επένδυση:
Αρχικά, καταχωρούμετα δεδομένα μας όπως γνωρίζουμε και χρησιμοποιούμε
την εντολή <<str>>για να δούμε τα δεδομένα μας.
Με την εντολή “Gefort=cut()”χωρίζουμε το δείγμα μας σε κλάσεις. Σε αυτό το
παράδειγμα όπουοι παρατηρήσεις μας είναι 50 και με το τύπο που δείξαμε πιο
πάνω στην παράγραφο ,χωρίζουμε το δείγμα μας σε 7 κλάσεις ,γράφοντας
“Geffort=cut(kef2b$Return.A, 7)”. Στην συνέχεια, με την βοήθεια της εντολής
“table()” εμφανίζουμε τον πινάκα όπου τα στοιχεία μας πλέον είναι χωρισμένα
σε ομάδες.Επίσης , σε αυτόν τον πίνακα βλέπουμε πόσες παρατηρήσεις έχει η
κάθε ομάδα.
42
Για να δημιουργήσουμε ένα Ιστόγραμμα πρέπει να χρησιμοποιήσουμε την
εντολή “hist(Return.A,breaks=bins)”.To “hist” ,βγαίνει από το histogram,
δηλαδή, ιστόγραμμα,με το “Bills” του ορίζουμε για πια μεταβλητή μας θέλουμε
να κάνουμε το διάγραμμα αυτό και τέλος με το “break=bins” του θέτουμε τα
όρια ώστε να αλλάξει μπάρα στο διάγραμμα. Αυτό το επιτυγχάνουμε με την
εντολή “bins=seq(min(Return.A),max(Return.A)+12.2,12.2).To “bins” είναι
όνομα που του ορίσαμε εμείς, το “seq” βγαίνει από την αγγλική λέξη
“Sequence” που σημαίνει “ακολουθία” και μέσα σε αυτό θέτουμε το
ελάχιστο(min),το μέγιστο(max) και την διαφορά που έχουν μεταξύ τους οι
κλάσεις.
43
Παρατηρούμε ότι η κορυφή του Ιστογράμματος βρίσκεται στην κλάση με
απόδοση από 0 μέχρι 15%. Επίσης, η επένδυση A παρουσιάζει στο αριστερό
άκρο τιμές μέχρι και -20 και εμφανίζει να έχει ελαφρά θετική ασυμμετρία.
Για την δεύτερη επένδυση:
Με τον ίδιο τρόπο καταχωρούμε τα δεδομένα μας και χρησιμοποιούμε την
εντολή <<str>>για να δούμε τα δεδομένα μας.
44
Με την εντολή “Gefort=cut()”χωρίζουμε το δείγμα μας σε κλάσεις. Σε αυτό το
παράδειγμα όπουοι παρατηρήσεις μας είναι 50 και με το τύπο που δείξαμε πιο
πάνω στην παράγραφο ,χωρίζουμε το δείγμα μας σε 7 κλάσεις ,γράφοντας
“Geffort=cut(kef2b$Return.B, 7)”. Στην συνέχεια, με την βοήθεια της εντολής
“table()” εμφανίζουμε τον πινάκα όπου τα στοιχεία μας πλέον είναι χωρισμένα
σε ομάδες.Επίσης , σε αυτόν τον πίνακα βλέπουμε πόσες παρατηρήσεις έχει η
κάθε ομάδα.
Για να δημιουργήσουμε ένα Ιστόγραμμα πρέπει να χρησιμοποιήσουμε την
εντολή “hist(Return.B,breaks=bins)”.To “hist” ,βγαίνει από το histogram,
δηλαδή, ιστόγραμμα,με το “Bills” του ορίζουμε για πια μεταβλητή μας θέλουμε
να κάνουμε το διάγραμμα αυτό και τέλος με το “break=bins” του θέτουμε τα
όρια ώστε να αλλάξει μπάρα στο διάγραμμα. Αυτό το επιτυγχάνουμε με την
εντολή “bins=seq(min(Return.B),max(Return.B)+12.2,12.2).To “bins” είναι
όνομα που του ορίσαμε εμείς, το “seq” βγαίνει από την αγγλική λέξη
“Sequence” που σημαίνει “ακολουθία” και μέσα σε αυτό θέτουμε το
ελάχιστο(min),το μέγιστο(max) και την διαφορά που έχουν μεταξύ τους οι
κλάσεις.
45
Όπως και στο Ιστόγραμμα της επένδυσης A έτσι και εδώ η κορυφή του
βρίσκεται στην κλάση με απόδοσημεταξύ 0-15%. Στο αριστερό άκρο βλέπαμε
ότι παίρνει τιμές μικρότερες από το -30. Παρατηρούμε ότι και η επένδυση B
εμφανίζει μια ελαφρά θετική ασυμμετρία με την διαφορά ότι είναι περισσότερο
μετατοπισμένο προς τα δεξιά με μόνη εξαίρεση την κλάση στα αριστερά που
δείχνει μια πιθανότητα για υψηλές τιμές.
Συγκρίνοντας τα δύο Ιστογράμματα συμπεραίνουμε ότι η επένδυση B έχει
καλύτερεςαποδόσεις από την A,αλλά με έναν όχι και τόσο ασήμαντο κίνδυνο
για υψηλές ζημίες. Ο φοιτητής ,ανάλογα την οικονομική κατάσταση του θα
μπορούσε να επιλέξει την καλύτερη επένδυση για αυτόν.
46
2.7 Ελαχίστων Τετραγώνων
Οι τιμές που παρουσιάζονται στο επόμενοπαράδειγμα είναι μια προσπάθεια
ενός φοιτητή να κατανοήσει την σχέση ανάμεσα στον βαθμό εξέτασης και τον
χρόνο μελέτης ,δέκα συμφοιτητώντου σε ένα συγκεκριμένομάθημα.
Αρχικά, καταχωρούμετα δεδομένα μας όπως γνωρίζουμε και χρησιμοποιούμε
την εντολή <<str>>για να δούμε τα δεδομένα μας.
Με summary() (όπως είδαμε και στο κεφάλαιο 2.4) μας δίνει γρήγορα και
εύκολα βασικές αλλά χρήσιμες πληροφορίεςγια την άσκηση μας ,όπως διάμεσο
,μέσο και άλλα.
Με την εντολή plot() δημιουργούμε ένα διάγραμμα με το οποίο ελέγχουμε αν η
σχέση μας είναι γραμμική.
47
Για να επιβεβαιώσουμε τις υποψίες μας, βρίσκουμε την συσχέτιση μεταξύ του
χρόνου μελέτης(Study.time) και βαθμών(Marks),από την εντολή cor().Το cor
βγαίνει από την αγγλική λέξη correlation που σημαίνει συσχέτιση.
Πριν ξεκινήσουμε για να βρούμε την γραμμή ελαχίστων τετραγώνων θα πρέπει
να ορίσουμε ποια μεταβλητή είναι η ανεξάρτητη και ποια η εξαρτημένη. Στο
συγκεκριμένο παράδειγμα η ανεξάρτητη είναι ο χρόνος διαβάσματος
(Study.time) και η εξαρτημένη είναι οι βαθμοί(Marks) . Επιλέχθηκαν έτσι γιατί
ο χρόνος διαβάσματος επιρεάζει τον βαθμό.Οσο περισσότερο ασχοληθεί
κάποιος ,τόσο καλύτερο βαθμό θα πάρει.
48
Η εντολή για την εκτέλεση των ελαχίστων τετραγώνων είναι η lm. Η
περισπωμένη μας δείχνει την στην ουσία ότι οι βαθμοι (Marks) εξαρτόνται
(~)από τον χρόνο διαβάσματος (Study.time).
Αφού τρέξουμε την εντολή lm και γράφοντας το όνομα στο οποίο περάσαμε
τις τιμές, το πρόγραμμα ,θα μας εμφανίσει ελάχιστες πληροφορίες .
Αν θελήσουμε να μάθουμε τι άλλο είναι αποθηκευμένο στην μεταβλητή, με την
εντολή attributes().
Με την εντολή fit$c παίρνουμε τις τιμές των α και β στην ευθεία
παλινδρόμησηςψ=α+βχ. Συγκεκριμένα βλέπουμε, ότι για το α η τιμη είναι ίση
με 5,921746 και για το β είναι ίση με 1,704864.
49
Για να βρούμε τις τιμές των εκτιμημένων σφαλμάτων ή υπολοίπων(residuals)
χρησιμοποιούμε την κάτω εντολή.Δημιουργούμεένα καινούριο αντικείμενο το
res, το οποίο πληκτρολογώντας το στην συνέχεια μας δίνει τις τιμές που
θέλουμε. Εν συνεχεία, με την εντολή plot() δημιουργούμε ένα διάγραμμα για το
χρόνο διαβάσματοςκαι τα υπόλοιπα,όπουείναι και οι τιμές που μπαίνουν μέσα
στην παρένθεση.
50
Τα υπόλοιπα(residuals)είναι οι κατακόρυφεςαποστάσεις ανάμεσα στις τιμές του
δείγματος και στα αντίστειχα σημεία της ευθειας. Στην ουσία είναι οι τιμές της
μεταβλητής του σφάλματος και το άθροισμα τους είναι το μέγεθος SSE,δηλαδή
Sum of Squares for Error.
51
Με την προηγούμενη εντολη είδαμε πώς να βρήσκουμε τα υπόλοιπα,όμως
υπάρχει και ένας πολύ πιο εύκολος τρόπος. Μπορούμε απλά να γράψουμε την
εντολή residuals(). Η τιμή “fit” που βάζυμε μέσα στην παρένθεση , είναι το
αντικείμενο που έχουμε δημιουργήσει εμείς για την εκτέλεση των ελαχίστων
τετραγώνων.Αυτος ο τρόπος είναι πολύ πιο απλός από τον προηγούμενο και
είναι χρήσιμος προς την αποφυγή λαθών.
Για να δημιουργήσουμε το διάγραμμα με το χρόνο διαβάσματος (Study.time)και
των βαθμών(Marks), όπως γνωρίζουμε και από τα προγουμενά παραδείγματα,
χρησιμοποιούμε την εντολή plot(Study.time,Marks).Μετέπειτα για να
εμφανίσουμε την γραμμή πάνω στο διάγραμμα πληκτρολογούμε το abline(fit).
52
Ο συντελεστής διεύθυνσηςβ=1,704864 είναι η κλίση της ευθείας, δηλαδή , για
κάθε μονάδα που κινούμαστε προς τα δεξιά στον οριζόντιο άξονα, η ευθεία
ανεβαίνει κατά 1,704864 μονάδες στον κάθετο άξονα. Με απλά λόγια η κλίση
της ευθείας μας δείχνει την αύξηση της Y ανά μονάδα της X.
Ο συντελεστής α=5,921746 αντιπροσωπεύει το σημείο τομής της ευθείας με
τον άξονα Y.
53
2.8 Άσκηση ελέγχου με γνωστό τον έλεγχο και την τυπική
απόκλιση
Στο επόμενο παράδειγμα θα εξετάσουμε έναν έλεγχο υπόθεσης, όταν ο μέσος
και η τυπική απόκλιση είναι γνωστά στοιχεία . Σκοπός μας είναι, γνωρίζοντας
αυτά τα δύο στοιχεία, να εξετάσουμε αν υπάρχει διαφορά στο μέσο λογαριασμό
μια εταιρείας έναντι του ανταγωνιστή της.
Αρχικά εισάγουμε τη τοποθεσία των δεδομένων μας και στη συνέχεια, αν
θέλουμε για λόγους ευκολίας το μετονομάζουμε.
Σε αυτή την άσκηση θα χρειαστούμε ένα από τα packages και για την ακρίβεια
την TeachingDemos. Αφού κάνουμε load και install την συγκεκριμένη
βιβλιοθήκη τρέχουμετην εντολή z.test(). Μέσα στις παρενθέσεις εισάγουμε το
μέρος απ’ όπου θέλουμε να πάρει μεταβλητές για τον έλεγχο η
54
εντολή(x$Bills),την υποθετική τυπική απόκλιση(sd=3.87), τον υποθετικό μέσο
(m=17.09) και στην συνέχεια πατάμε ENTER.
Στην οθόνη του χρήστη εμφανίζεται το όνομα του ελέγχου, οι τιμές z,n (που
είναι το μέγεθος του δείγματος μας), η τυπική απόκλιση, η τιμή SE mean και η
τιμή p. Ακόμα ,βλέπουμε την εναλλακτική υπόθεση, το διάσημα εμπιστοσύνης
και τον πραγματικό μέσο του δείγματος μας.
Η μηδενική υπόθεση σε αυτή τη περίπτωση απορρίπτεται αν ο μέσος είναι είτε
μικρότερος είτε μεγαλύτερος από τον υπάρχοντα,με την περιοχή απόρριψης να
είναι z< -z a/2 ή z>z a/2. Με το a=0.05 έχουμε z< -1,96 ή z>1,96( πίνακας
τιμών z).
Ο έλεγχος z είναι 1.1884 και επειδή δεν είναι ούτε μικρότεροούτε μεγαλύτερο
του -1,96 δεν απορρίπτεται η μηδενική υπόθεση. Με τη τιμή της p να είναι στο
0.2347 μπορούμε να πούμε πως δεν υπάρχουναρκετά στατιστικά στοιχεία ώστε
να συμπεράνουμεότι ο μέσος λογαριασμός των ανταγωνιστών διαφέρει από
αυτόν της εταιρείας που εξετάζουμε.
55
2.9 Άσκηση ελέγχου με γνωστό μέσο.
2.9.1 Εισαγωγή δεδομένων χωρίς διάβασμα από αρχείο
Το όνομα που θα δώσουμε θα είναι Libres και στην συνέχεια με την Στο
επόμενο παράδειγμα θα καταχωρήσουμε τα δεδομένα δίνοντας τους ένα όνομα
εντολή c() καταχωρούμε τα στοιχεία μας. Στην συνέχεια, πατώντας το ENTER
η μεταβλητή μας έχει δημιουργηθεί με το όνομα Libres και είναι έτοιμη προς
επεξεργασία.
…….
Εδώ θα εξετάσουμε δείγματα βάρουςεφημερίδωνσε λίβρες που απορρίφθηκαν
από 148 νοικοκυριά. Η υπόθεση που θέλουμε να εξετάσουμε είναι αν η μέση
εβδομαδιαία απόρριψη εφημερίδων είναι μεγαλύτερη από 2 λίβρες, έτσι ώστε
να ανοίξει ένα νέο κέντρο ανακυκλώσεων.
Χρησιμοποιώντας την εντολή t.test()παίρνουμε την απάντηση μας βάζοντας
μέσα στις παρενθέσεις τα χαρακτηριστικά κάτω από τα οποία θα γίνει ο
έλεγχος. Πρώτα μέσα στην παρένθεση βάζουμε το όνομα της μεταβλητής
(Libres). Εν συνεχεία ,μετα το κόμμα, βάζουμε το μέσο που θέλουμε να
εξετάσουμε(mu=2). Μετέπειτα εισάγουμε αν θέλουμε να είναι μεγαλύτερος
αυτός ο μέσος ή μικρότερος(alternative= “greater”) και τη στάθμη
σημαντικότηταςτης υπόθεσης(conf.=0.99). Να σημειωθεί, ότι αυτές οι εντολές
είναι απαραίτητες καθώς χωρίς αυτές, η εντολή t.test() από μόνη της θα μας
έδινε διαφορετικά αποτελέσματα.
Αρχικά, βλέπουμε το όνομα του test(one sample t-test). Στη συνέχεια τη βάση
δεδομέων που χρησιμοποιήσαμε(data:libres). Έπειτα, βλέπουμε την τιμή του
56
ελέγχου t(t=2.1526), τους βαθμούς ελευθερίας (df=147) και την τιμή
p(p=0.01644).
2.10 Έλεγχος αναλογίας ενός πληθυσμού
Στο επόμενο παράδειγμα θα εξετάσουμε την αναλογία ενός πληθυσμού, με
σκοπό να συμπεράνουμε τη νίκη ενός υποψηφίουέναντι του αντιπάλου του. Τα
δεδομένα μας είναι ονομαστικά και συμβολίζονται με «1» για το πρώτο
υποψήφιο και με «2» για τον δεύτερο.Σκοπός μας είναι να δούμε αν ο
υποψήφιος έχει κερδίσει τις εκλογές στη συγκεκριμένη περιοχή.
Αρχικά φορτώνουμε τα δεδομένα μας στο πρόγραμμα και στη συνέχεια δίνουμε
μια ονομασία (askhsh).
Έπειτα και με την βοήθεια της εντολής subset, ονομάζουμε με το όνομα y όλους
τους ψήφους της x όπου έχουν τον αριθμό «2». Αυτό γίνεται έτσι ώστε στην
συνέχεια με την εντολή str(y) να δούμε πόσοι από το σύνολο των ψηφοφόρων
έχουν ψηφίσει το δεύτερουποψήφιο. Το σύνολο των ψηφοφόρων το βλέπουμε
με την εντολή str(x).
57
Έχοντας τον αριθμούς που χρειαζόμαστε εισάγουμε την εντολή
prop.test(407,765,p=0.5,alternative= “greater”,correct=F). Ο αριθμός των
ψηφοφόρων στο σύνολοείναι 765 και αυτοί που ψήφισαν το δεύτερο είναι 407.
Η εναλλακτική υπόθεση που εξετάζουμε είναι ότι η αναλογία του δεύτερου
υποψηφίου πρέπει να είναι μεγαλύτερη του 0.5. Τέλος, με την εντολή correct=F
δηλώνουμε ότι δε θέλουμε να γίνει διόρθωση συνέχειας.
Το αποτέλεσμα της εντολής prop.test μας δίνει το x^2όπου η ρίζα του είναι ο
έλεγχος z. Τον έλεγχο z τον βρίσκουμε δίνοντας την εντολή sqrt() και στην
παρένθεση τον αριθμό X-squared(3.1386). Στη συνέχεια βλέπουμε τους
βαθμούς ελευθερίας , την τιμή p, την εναλλακτική υπόθεση ,το διάστημα
εμπιστοσύνης καθώς και την αναλογία των ψηφοφόρων του δεύτερου
υποψήφιου προς το σύνολο των υποψηφίων(0,5320261)
Με τη στάθμη σημαντικότητας στο 5% διαπιστώνουμε ο συγκεκριμένος
υποψήφιος έχει κερδίσει στην συγκεκριμένη περιοχή.
58
2.11 Έλεγχος ίσων διασπορών
Στα επόμενα τρία παραδείγματα θα ελέγξουμε τις διασπορές των δειγμάτων μας
, κάνοντας τον έλεγχο ίσων διασπορών. Σκοπός μας είναι να επιλέξουμε το
κατάλληλο έλεγχο βάση των αποτελεσμάτων του ελέγχου διασπορών.
Στο συγκεκριμένο παράδειγμα εξετάζουμεαν είναι καλύτερογια μια επιχείρηση
να αναλαμβάνεται από το παιδί του διευθυντή ή από ξένο διευθυντή. Οι τιμές
του δείγματος μας είναι της μορφής ποσοστιαίας μεταβολής.
Αρχικά, περνάμε το δείγμα μας στο πρόγραμμα και το ονομάζουμε.
Έπειτα η εντολή attach() μας επιτρέπει να μην χρησιμοποιήσουμετο όνομα του
δείγματος αλλά μόνο των μεταβλητών. Πρώτος έλεγχος που πρέπει να
πραγματοποιήσουμε είναι ο var.test(Offspring,Outsider). Στην οθόνη του
χρήστη εμφανίζονται τα αποτελέσματα του ελέγχου και βλέπουμε την τιμή F,
την τιμή p, τους βαθμούςελευθερίαςκαι των δύο μεταβλητών,την εναλλακτική
υπόθεση και το διάστημα εμπιστοσύνης. Από τον έλεγχο των λόγων των
διασπορών βλέπουμε πως η τιμή F=0.4714 είναι εντός της περιοχής
απόρριψης(πίνακας τιμών F ). Ακόμα, από τη τιμή της p=0.008095
καταλαβαίνουμε ότι πρέπει να απορρίψουμε τη μηδενική υπόθεση και να
χρησιμοποιήσουμε τον έλεγχο των άνισων διασπορών.
59
Για τον έλεγχο άνισων διαπορών δίνουμε την εντολή t.test(Offspring, Outsider,
mu=0), με τον όρο mu=0 να δηλώνει ότι στην εναλλακτική υπόθεση η διαφορά
των μέσων δεν είναι ίση του μηδενός.
Στην οθόνη μας, εμφανίζεται η τιμή του ελέγχου t,η τιμή της p, οι βαθμοί
ελευθερίας , ο όρος της εναλλακτικής υπόθεσης , το διάστημα εμπιστοσύνης
καθώς και οι μέσοι των δύο μεταβλητών.
Από τα αποτελέσματα συμπεραίνουμε ότι πρέπει να απορριφθεί η μηδενική
υπόθεση και να δεχθούμε ότι υπάρχει διαφορά στη μέση απόδοση μιας
επιχείρησης όταν την αναλαμβάνει ένα από τα παιδία του ιδρυτή από όταν
αναλαμβάνει ένας ξένος. Αυτό το καταλαβαίνουμε από τον έλεγχο t=-3.2196 με
την περιοχή απόρριψης 1.982(πίνακας τιμών students t) και τη τιμή p να είναι
ίση με 0.001685. Τέλος, συμπεραίνουμε ότι η μέση απόδοση μια επιχείρησης
είναι από 0.5136909% έως 2.1581458% υψηλότερη όταν αναλαμβάνει ξένος
διευθυντής έναντι κάποιου παιδιού του ιδρυτή.
2.12 Έλεγχος για το λόγο των διασπορών
Στο επόμενο παράδειγμα θα πραγματοποιήσουμε έναν έλεγχο για το λόγο των
διασπορών δύο μηχανών εμφιάλωσης.
60
Αρχικά περνάμε τα δεδομένα μας στο πρόγραμμα και στη συνέχεια για τη δική
μας ευκολία, ονομάζουμε τα αρχεία.
Με την εντολή attach() και μέσα στη παρένθεση το όνομα που δώσαμε στο
δείγμα μας, όπως γνωρίζουμε από προηγούμενα παραδείγματα, δεν χρειάζεται
να ξαναχρησιμοποιήσουμε το όνομα το οποίο δώσαμε. Επισημαίνεται ότι αυτό
γίνεται για τη δική μας ευκολία και δεν αποτελεί ένα υποχρεωτικό βήμα.
Στη συνέχεια γίνεται χρησιμοποίηση της εντολής var.test(). Ο έλεγχος var
γίνεται για τις διακυμάνσεις και είναι συντομογραφία της λέξης variance όπου
είναι η αγγική μετάφραση της λέξης. Ακολούθως, εισάγουμε τις δύο μεταβλητές
μας (Machive.1, Machive.2) όπως και τον έλεγχο της εναλλακτικής υπόθεσης
(alternative= “greater”).
Στην οθόνη του χρήστη εμφανίζεται η τιμή f όπως και η τιμή p.Ακόμα
εμφανίζεται το διάστημα εμπιστοσύνης όπως και η εναλλακτική υπόθεση. Από
τη τιμή της F συμπεραίνουμε ότι δε μπορούμε να απορρίψουμε τη μηδενική
υπόθεση καθώς η περιοχή απόρριψης μας είναι 1.98 (πίνακας F) και ο έλεγχος
61
μας είναι F=1.3988. Με τα δεδομένα αυτά δεν στηρίζεται η υπόθεση ότι η
διασπορά του δεύτερου πληθυσμού είναι μικρότερη από αυτή του πρώτου.
2.13 Έλεγχος ίσων διασπορών
Σε αυτό το παράδειγμα εξετάζουμε αν τα αμοιβαία κεφάλαια που προτείνουν οι
χρηματιστές έχουν μεγαλύτερη απόδοση από αυτά που είναι άμεσα διαθέσιμα
στους επενδυτές.
Αρχικά εισάγουμε και ονομάζουμε το δείγμα το οποίο εξετάζουμε.
Στη συνέχεια πραγματοποιούμε το έλεγχο διασπορών με την εντολή var.test().
Η τιμή του ελέχου F είναι ίση με 0.865, με την τιμή της p να είναι ίση με
0.57(πίνακας τιμών F) και επειδή ο έλεγχος μας δεν βρίσκεται στη περιοχή
απόρριψης, δε μπορούμε να απορρίψουμε τη μηδενική υπόθεση και έτσι θα
χρησιμοποιήσουμε το τύπο των ίσων διασπορών.
62
Στο πρόγραμμα R ο έλεγχος t με ίσες διασπορές δηλώνεται με την εντολή
var.equal=T. Έτσι, με αυτό το τρόπο δίνουμε την εντολή ελέγχου
t.test(x$Direct,x$Broker,alternative= “greater”,var.equal=T) και στην οθόνη μας
εμφανίζεται ο έλεγχος t, η τιμή p, η εναλλακτική υπόθεση ,το διάστημα
εμπιστοσύνης και οι μέσοι δύο μεταβλητών.
2.14 Έλεγχος Διασποράς
Σκοπός μας είναι να δείξουμε ότι η διασπορά των ποσοτήτων είναι μικρότερη
από ένα κυβικό εκατοστό, για ένα μηχάνημα εμφιάλωσης, σε συσκευασίες ενός
λίτρου. Σε αυτό το παράδειγμα θα χρειαστεί να ελέγξουμε τη διασπορά του
δείγματος μας.
Πρώτο βήμα μας θα είναι η εισαγωγή των δεδομένων στο πρόγραμμα και στη
συνέχεια η μετονομασία του δείγματος μας.
63
Στη συνέχεια θα εγκαταστήσουμε το package “TeachingDemos” με σκοπό να
χρησιμοποιήσουμε το έλεγχο sigma.test(). Μέσα στις παρενθέσεις θα μπούνε οι
παράμετροι μας, οι οποίοι είναι το όνομα της μεταβλητής μας (Fills), η τιμή της
διασποράς που εξετάζουμε (sigma=1) ,καθώς και ο όρος της εναλλακτικής
υπόθεσης( alternative= “less”).
Ο χρήστης στη συνέχεια δέχεται τα αποτελέσματα στην οθόνη όπου είναι το
όνομα του ελέγχου(One Sample Chi-Squared test for variance) η βάση
δεδομένων πουχρησιμοποιήθηκες (data:Fills), η τιμή του x^2( x-squared=15.2),
οι βαθμοί ελευθερίας(df=24)και η τιμή p(p-value=0.08523). Ακόμα φαίνονται η
εναλλακτική υπόθεση, το διάστημα εμπιστοσύνης καθώς και η διασπορά της
μεταβλητής μας (var of Fills 0.6333333). Από τον έλεγχο μας και με τη περιοχή
απόρριψης να είναι στο 13.85, βλέπουμε πως δεν μπορούμε να απορρίψουμε
την μηδενική υπόθεση. Με τη τιμή του ελέγχου p να είναι ίση με 0.08523
μπορούμε να πούμε πως δεν υπάρχουν αρκετά στατιστικά στοιχεία που να μας
κάνουν να συμπεραίνουμε πως ο ισχυρισμός είναι αληθής.
Αυτό βέβαια δε σημαίνει ότι η διασπορά είναι ίση ή μεγαλύτερη του ένα,
παρά μόνο μας δίνει το δικαίωμα να στηρίξουμε πως είναι μικρότερη του.
64
2.15 Έλεγχος υπόθεσης
Στην επόμενη άσκηση θα εξετάσουμε τα λάθη που κάνουν δύο σαρωτές και
ύστερα θα τους συγκρίνουμε με σκοπό να δούμε ποιος από τους δύο είναι
καλύτερος.
Όπως και στα προηγούμενα παραδείγματα, φορτώνουμε τα δεδομένα μας και
στη συνέχεια τα ονομάζουμε.
Εν συνεχεία εισάγουμε την εντολή t.test() δηλώνοντας αυτή τη φορά ως
εναλλακτική υπόθεση ο μέσος (mu=0) να είναι μικρότερος του
μηδενός(alternative= “less”) και η σύγκριση των δεδομένων να γίνει κατά
ζεύγη(paired=T ή paired=TRUE).
Στην οθόνη του χρήστη εμφανίζεται το όνομα του test(paired t-test), τα
δεδομένα που χρησιμοποιήθηκαν(Brand.A και Brand.B), η τιμή του ελέγχου t,
η τιμή p, οι βαθμοί ελευθερίας, καθώς και η εναλλακτική υπόθεση και το
65
διάστημα εμπιστοσύνης.Η τιμή του ελέγχου είναι t=-3.2248 και η p είναι ίση με
0.007278. Με αυτά τα στοιχεία συμπεραίνουμε ότι ο σαρωτής A είναι
καλύτερος από τον B.
2.16 Έλεγχος υπόθεσης
Στο επόμενο έλεγχο υπόθεσης εξετάζουμε ποίοι κάτοχοι MBA δέχονται
καλύτερες προσφορές στην αγορά εργασίας, συγκρίνοντας αυτούς με
οικονομικές σπουδές με εκείνους από σπουδές μάρκετινγκ.
Αρχικά, φορτώνουμε στο πρόγραμμα τα δεδομένα μας και ύστερα τους δίνουμε
ένα όνομα.
Στη συνέχεια πληκτρολογούμε την εντολή var.test() με σκοπό να ελέγξουμε τις
διασπορές των μεταβλητών μας.
Ο έλεγχος μας έδειξε ότι μπορούμε να χρησιμοποιήσουμε το τύπο των ίσων
διασπορών, επομένως, η επόμενη εντολή που θα χρησιμοποιήσουμε θα είναι η
t.test() με εναλλακτική υπόθεση,η διαφοράτων μέσων να είναι μεγαλύτερη του
μηδενός( alternative= “greater”).
66
Η περιοχή απόρριψης είναι ίση με 1,676(πίνακας τιμών student t) και ο έλεγχος
μας είναι ίσος με t=1.0422. Επιπρόσθετα, η τιμή pείναι ίση με 0.1513 και έτσι,
με τα δεδομένα αυτά, δεν μπορούμε να στηρίξουμε την υπόθεση ότι οι
προσφορές που δέχονται οι κάτοχοι MBA με οικονομικές σπουδές είναι
υψηλότερες από εκείνες των κατόχων MBA με σπουδές στο τομέα του
Marketing.
2.17 Έλεγχος καλής προσαρμογής
Ως τελευταίο παράδειγμα θα δείξουμε έναν έλεγχο καλής προσαρμογής. Αυτό
που θέλουμε να δείξουμε είναι αν η επιλογή MBA σχετίζεται με την
κατεύθυνση των προπτυχιακών σπουδών.
Περνώντας τα δεδομένα μας και μετονομάζοντας τα ,μπορούμε έπειτα με την
εντολή data.frame() να δούμε τα δεδομένα μας τα οποία είναι ομαδοποιημένα.
67
Στην συνέχεια πληκτρολογούμε την εντολή chisq:test() και στις παρενθέσεις
εισάγουμε τις δύο μεταβλητές(Degree,MBA.Major). Σημαντικό βήμα είναι να
έχει χρησιμοποιηθεί εντολή attach() και μέσα στη παρένθεση το όνομα του
δείγματος μας. Ειδάλλως μπορούμε να γράψουμε την εντολή με το όνομα του
δείγματος και στη συνεχεία το σύμβολο του δολαρίου με τις εκάστοτε
μεταβλητές.
Στην οθόνη του χρήστη εμφανίζεται το όνομα του ελέγχου που “τρέξαμε”
(Pearson’s Chi-squared test), οι μεταβλητές που τέθηκαν προς εξέταση(Degree
and MBA.Major) και τα αποτελέσματα του έλεγχου. Βλέπουμε πως η τιμή του
x^2(x-squared) είναι ίση με 14.7019 με τη περιοχή απόρριψης μας να είναι ίση
με 12.5916( πίνακας τιμών x^2). Τέλος, η τιμή p είναι ίση με 0.02271. Με τον
έλεγχο να βρίσκεται μέσα στη περιοχή απόρριψης μπορούμε να συμπεράνουμε
ότι υπάρχει σχέση μεταξύ προπτυχιακής κατεύθυνσης σπουδών και
κατεύθυνσης MBA.
68
ΚΕΦΑΛΑΙΟ 3
69
3.1 Με λίγα λόγια.
3.1.1 Τι είδαμε.
Σε αυτήν την έρευνα είδαμε διεξοδικά τις δυνατότητεςτου προγράμματος R,όσο
αναφορά τις στατιστικές μελέτες και την έκβαση χρήσιμων συμπερασμάτων.
Αναφερθήκαμε στην στατιστική επιστήμη, βλέποντας βασικούς ορισμούς της
όπως επίσης και τα είδη της, αναλύοντας τους κυριότερους τομείς της
περιγραφικής αλλά και της επαγωγικής στατιστικής. Στην συνέχεια είχαμε μια
πρώτη γνωριμία με το πρόγραμμα R βλέποντας το περιβάλλον του
προγράμματος, τουςτελεστές του αλλά και τον τρόπο αποθήκευσης, ανάκτησης
και εισαγωγής δεδομένων. Με την βοήθεια ασκήσεων καταφέραμε να δείξουμε
όλες τις βασικές λειτουργίεςτου R ξεκινώντας από την εισαγωγή αρχείων και
δεδομένων στο πρόγραμμα και στην συνέχεια, με τις κατάλληλες εντολές να
εξάγουμε τα αποτελέσματα που μας ενδιαφέρουν. Από την περιγραφική
στατιστική, με τα μέτρα θέσης και διασποράς, έως και την επαγωγική, με τους
ελέγχους υποθέσεων και τα διαστήματα εμπιστοσύνης, καταφέραμε να
πραγματοποιήσουμε τον κύριο και αρχικό σκοπό αυτής της έρευνας που δεν
ήταν άλλος από το να γνωρίσουμε το πρόγραμμα R ,να το κατανοήσουμε και
στην συνέχεια να το αξιολογήσουμε.
3.1.2 Πλεονεκτήματα και Μειονεκτήματα του Προγράμματος.
3.1.2.1 Πλεονεκτήματα
Ένα από τα μεγαλύτερα θετικά στοιχεία του προγράμματος είναι τα σχετικά
λίγα προβλήματα που μπορεί να συναντήσει ο χρήστης καθώς και η εύκολη
επίλυση τους. Με την ανοιχτή κοινότητα R να είναι πάντοτε πρόθυμη να
βοηθήσει ,είτε αρχάριους, είτε προχωρημένους χρηστές ,η εκμάθηση και η
κατανόηση του R γίνεται με σχετική άνεση. Ακόμα με το ίδιο το πρόγραμμα να
δίνει λύσεις , όπου αυτό γίνεται δυνατό ,ο χρήστης μαθαίνει να βρίσκει και να
επιλύει προβλήματα παντόςφύσης. Ένα ακόμη σημαντικό πλεονέκτημα είναι το
λειτουργεί με βιβλιοθήκες(packages) . Με την χρήση βιβλιοθηκών ο χρήστης
μπορεί να χρησιμοποιήσει πληθώρα παραδειγμάτωνπρος επίλυση όπως επίσης
και εντολές οι οποίες πιθανόν να τον βοηθήσουν στην λύση των ασκήσεων.
Συνεχίζοντας θα πρέπει να τονίσουμε, ότι ακόμα και αν δεν υπάρχει κάποια
βιβλιοθήκη έτσι ώστε να βοηθήσει το χρήστη, ο ίδιος μπορεί να τη
δημιουργήσει. Το R πέρα από ένα πολυεργαλείο , είναι και μια γλώσσα
70
προγραμματισμού η οποία μας δίνει την δυνατότητα να κατασκευάσουμε την
εντολή που χρειαζόμαστε. Ως ένα από τα μεγαλύτερα πλεονεκτήματα θα
μπορούσαμε ακόμα να αναφέρουμε την λυτή αλλά άκρως κατανοητή
παρουσίαση δεδομένων στο περιβάλλον του προγράμματος. Το R εμφανίζει
στο χρήστη το απαιτούμενοαποτέλεσμα με όλες τις πληροφορίεςπου μπορεί να
ζητήσει ο χρήστης χωρίς να χρειάζεται να ανατρέξει αλλού ή να δώσει
παραπάνω εντολές από τις απαιτούμενες. Επιπρόσθετα, το R, δίνει ένα ευρύ
φάσμα γραφημάτων, στα οποία γίνεται αντιληπτή και η πιο μικρή λεπτομέρεια
και υπάρχει η δυνατότητα να τα προσαρμόσει ο χρήστης στις δικές του ανάγκες
και απαιτήσεις. Τέλος, ίσως και το σημαντικότερο πλεονέκτημα, είναι ότι δεν
χρειάζεται κάποιο αντίτιμο για την χρησιμοποίηση του. Όντας ένα δωρεάν
πρόγραμμα το οποίο μπορεί να χρησιμοποιηθεί από οποιονδήποτε ,το R αποκτά
ένα μεγάλο συγκριτικό πλεονέκτημα έναντι των υπολοίπων προγραμμάτων
στατιστικής, μαθηματικώνή προγραμματισμού. Ακόμα το ευρέοςεργασιών που
μπορεί να καλύψει είναι αναπόφευκταένα θετικό στοιχείο για το συγκεκριμένο
πρόγραμμα. Με τη στατιστικών είναι ένα μόνο κομμάτι από την πληθώρα
εργασιών, το R ,μπορεί να χρησιμοποιηθεί με μεγάλη ευχέρεια στη μαθηματική
επιστήμη, όπως ακόμα και στο προγραμματισμό και στην δημιουργία βάσεων
δεδομένων.
1.3.2.2 Μειονεκτήματα
Πέρα από τα θετικά στοιχεία παρατηρούμε και μια σειρά από κάποια
μειονεκτήματα, τα οποία δεν ξεπερνούν σε αριθμό τα πλεονεκτήματα του.
Αρχικά, όντας ένα πρόγραμμα το οποίοδεν διδάσκεται σε αρκετά εκπαιδευτικά
ιδρύματα, αντιμετωπίζει ένα μεγάλο πρόβλημα αναγνωσιμότητας. Επιπρόσθετα,
μπορεί να προκαλέσει άσχημη πρώτη εντύπωση στους νέους χρήστες. Με το
περιβάλλον του προγράμματος να μην θυμίζει σε τίποτα προγράμματα όπως
είναι το SPPS ή Excel, η εικόνα που δέχεται ο χρήστης μπορεί να θεωρηθεί
ασυνήθιστη και να δημιουργήσει κακή εντύπωση. Ο χρόνος απομνημόνευσης
και της σωστής χρήσης του μεγάλου πλήθους εντολών του μπορεί να θεωρηθεί
ως κάτι το αρνητικό. Ο χρήσης θα πρέπει να μάθει και να κατανόηση των
μεγάλο όγκο εντολών ώστε να έχει τα επιθυμητά αποτελέσματα. Όπως γίνεται
αντιληπτό θα πρέπει να κάνει αρκετά λάθη και να περάσει αρκετές ώρες πάνω
στο πρόγραμμα μέχρι να φθάσει στο σημείο να εφαρμόζει σωστά τις εντολές.
Τέλος, οι ελάχιστες πληροφορίες που υπάρχουν στην Ελληνική γλώσσα,
71
καθιστούν το R ως ένα μέσο σχεδόν απρόσιτο για όσους δεν μιλούν κάποια
ξένη γλώσσα. Αποτέλεσμα αυτού είναι η αργή διάδοση του προγράμματος στη
χώρα μας
3.1.3 Σύγκριση με άλλα στατιστικά προγράμματα.
Σε σύγκριση με τα υπόλοιπαστατιστικά προγράμματα ,το R,έχει κάνει τεράστια
πρόοδο από την μέρα δημιουργίαςτου μέχρι και σήμερα. Η δωρεάν διανομή του
σε σύγκριση με πολλά άλλα στατιστικά πακέτα του δίνει ένα δυναμικό
πλεονέκτημα. Επίσης σε σύγκριση με τα στατιστικά προγράμματα SPSS ,
STATA έχει μεγάλη ποικιλία γραφημάτων αλλά σου παρέχει μεγάλη ευκολία
στην δημιουργία τους, στην διαχείριση τους και στην μετατροπή τους. Σχετικά
με το προγραμματισμό ,το R φαίνεται να προτιμάται σε σχέση με το STATA
καθώς είναι πολύ πιο εύκολο να το προγραμματίσεις. Στα περισσότερα
προβλήματα στατιστικής ακόμα και αν τα περισσότερα πακέτα μας δίνουν τα
στοιχεία και τις εξισώσεις που χρειαζόμαστε,πολλές φορές ο προγραμματισμός
είναι απαραίτητος και έτσι το R έχει συγκριτικό πλεονέκτημα.
Συγκριτικά με το SPSS, το συγκεκριμένο πρόγραμμα, με το πλεονέκτημα
του προγραμματισμού επιτρέπει στο χρήστη να κάνει πιο εξειδικευμένες
μελέτες, που είναι πιθανό να μην υπάρχουν,να είναι δύσκολοστο χειρισμό ή να
απαιτεί περισσότερο χρόνο και περισσότερα βήματα στην ίδια μελέτη στο
SPSS. Επίσης, σε διαφορές ιστοσελίδες με κύριο θέμα την στατιστική, το R
δείχνει να έχει μεγάλη απήχηση, με τους νέους ηλικιακά κατά κύριο λόγο να το
υποστηρίζουν σε σχέση με κάποια άλλα στατιστικά πακέτα, ισχυριζόμενοι
μάλιστα ότι το πρόγραμμα R είναι για εξειδικευμένες στατιστικές μελέτες σε
αντίθεση με το SAS,SPSS ή to STATA. Η αλήθεια βέβαια είναι ότι ακόμα και
σήμερα τα πακέτα αυτά(SPSS,SAS) θεωρούνται κορυφαία στατιστικά πακέτα
αλλά με το πέρασμα του χρόνου η απήχηση τους να μειώνεται. Στον αντίποδα
το STATAκαι το R αυξάνουντην δυναμική τουςκαι επακόλουθου αυτού είναι
η συνεχής αύξηση των χρηστών αυτών των προγραμμάτων. Συμβολικό αυτής
της απήχησης ,για το R, είναι η δημοσίευση από ,μια από τις μεγαλύτερης
εφημερίδας των Ηνωμένων Πολιτειών της Αμερικής , την New York Times το
2009 το οποίο δηλώνει πως το πακέτο αυτό κερδίζει την εμπιστοσύνη των
στατιστικών αναλυτών ανά τον κόσμο καθώς επίσης και ότι μπορεί στο μέλλον
να αποτελέσει μεγάλο ανταγωνιστή των μέχρι τότε μεγάλων στατιστικών
72
προγραμμάτων.
Τέλος, μια έρευνα ,του Bob Munchen, μας δείχνει την ανοδική αυτή πορεία
και προβλέπει πως μέχρι το 2015 θα έχει έρθει η αρχή του τέλους για τα δύο
πρωτοπόρα στατιστικά πακέτα.
3.1.4 Προτάσεις.
Ως μια πρώτη πρόταση,ύστερα από την εξαγωγή των συμπερασμάτων μας, θα
μπορούσαμενα πούμε την αναγκαιότητα εκμάθησης του προγράμματος σε όλα
τα εκπαιδευτικά ιδρύματα της χώρας. Το R, με την μεγάλη γκάμα δυνατοτήτων,
είτε στη στατιστική, είτε στα μαθηματικά, είτε στο προγραμματισμό θα ήταν
τέλειο εργαλείο δουλειάς για τους φοιτητές γιατί θα τους βοηθούσε να
καταλάβουν πολύ πιο εύκολα , πιο εξειδικευμένα προγράμματα ή ακόμα και
άλλες γλώσσες προγραμματισμού. Συγκεκριμένα, για τις σχολές με κύριο
αντικείμενο τη στατιστική, την οικονομία, τα μαθηματικά και τους
ηλεκτρονικούςυπολογιστές, θα πρέπει να θεωρείται απαραίτητο. Το R είναι ένα
πρόγραμμα με μηδενικό κόστος για την εκπαίδευση.Επιπρόσθετα, η δημιουργία
και η ανάπτυξη μιας Ελληνικής διαδικτυακής κοινότητας του προγράμματος
μπορεί να θεωρηθεί αναγκαία. Με αυτό τον τρόποοι Έλληνες χρήστες θα έχουν
μεγαλύτερη υποστήριξη και βοήθεια. Τέλος, θα ήταν ένας τρόπος προώθησης
του R στην Ελληνική αγορά, με τους πιθανούς χρήστες να βρίσκουν άμεσα
λύση στα προβλήματατουςξεπερνώντας έτσι το εμπόδιο μιας ξένης γλώσσας.
3.2 Συμπεράσματα.
Αυτό που μπορεί να συμπεράνει κανείς είναι ότι το πρόγραμμα έχει αρκετά
πλεονεκτήματα έναντι άλλων στατιστικών πακέτων, αλλά και προβλήματα, που
με τον καιρό όμως αντιμετωπίζονται. Το πρόγραμμαR , δείχνει να έχει σύμμαχο
τον χρόνο καθώς κερδίζει με τον καιρό την εμπιστοσύνη χιλιάδωνχρηστών ανά
τον κόσμο, με αποτέλεσμα να γίνεται ένα από τα πιο διαδεδομένα και αξιόπιστα
προγράμματα, όχι μόνο για στατιστικούς, αλλά και για άλλους σκοπούς.
73
Βλέπουμε, ακόμα πως οι δυνάμειςτου προγράμματοςξεπερνούνσε μεγάλο
βαθμό εκείνες των ανταγωνιστικών προγραμμάτων. Παρ’ όλα αυτά
παρατηρούμε και αδυναμίες, όπως είναι η αργή διάδοση του και πιο
συγκεκριμένα στην χώρα μας. Ακόμα και σε αυτήν την περίπτωση όμως τα
προβλήματα φαίνονται να είναι πολύ λίγα σε σχέση με την δυναμική του, την
αξιοπιστία του και γενικότερα, τα θετικά στοιχεία που παρουσιάζει το εν λόγο
πρόγραμμα. Κάτι που μας κάνει να πιστεύουμε ότι πολύ σύντομα θα είναι ίσως
το πιο επιτυχημένο, αλλά και εξεζητημένο στατιστικό πρόγραμμα.
74
Πίνακες
Τιμές των πιθανοτήτων )()()( zZPzZPzΦ  της τυποποιημένης
κανονικής κατανομής )1(0,N για 0z . Για 0z ισχύει )(1)( zΦzΦ  .
z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.50000 0.50399 0.50798 0.51197 0.51595 0.51994 0.52392 0.52790 0.53188 0.53586
0.1 0.53983 0.54380 0.54776 0.55172 0.55567 0.55962 0.56356 0.56749 0.57142 0.57535
0.2 0.57926 0.58317 0.58706 0.59095 0.59483 0.59871 0.60257 0.60642 0.61026 0.61409
0.3 0.61791 0.62172 0.62552 0.62930 0.63307 0.63683 0.64058 0.64431 0.64803 0.65173
0.4 0.65542 0.65910 0.66276 0.66640 0.67003 0.67364 0.67724 0.68082 0.68439 0.68793
0.5 0.69146 0.69497 0.69847 0.70194 0.70540 0.70884 0.71226 0.71566 0.71904 0.72240
0.6 0.72575 0.72907 0.73237 0.73565 0.73891 0.74215 0.74537 0.74857 0.75175 0.75490
0.7 0.75804 0.76115 0.76424 0.76730 0.77035 0.77337 0.77637 0.77935 0.78230 0.78524
0.8 0.78814 0.79103 0.79389 0.79673 0.79955 0.80234 0.80511 0.80785 0.81057 0.81327
0.9 0.81594 0.81859 0.82121 0.82381 0.82639 0.82894 0.83147 0.83398 0.83646 0.83891
1.0 0.84134 0.84375 0.84614 0.84850 0.85083 0.85314 0.85543 0.85769 0.85993 0.86214
1.1 0.86433 0.86650 0.86864 0.87076 0.87286 0.87493 0.87698 0.87900 0.88100 0.88298
1.2 0.88493 0.88686 0.88877 0.89065 0.89251 0.89435 0.89617 0.89796 0.89973 0.90147
1.3 0.90320 0.90490 0.90658 0.90824 0.90988 0.91149 0.91309 0.91466 0.91621 0.91774
1.4 0.91924 0.92073 0.92220 0.92364 0.92507 0.92647 0.92786 0.92922 0.93056 0.93189
1.5 0.93319 0.93448 0.93574 0.93699 0.93822 0.93943 0.94062 0.94179 0.94295 0.94408
1.6 0.94520 0.94630 0.94738 0.94845 0.94950 0.95053 0.95154 0.95254 0.95352 0.95449
1.7 0.95543 0.95637 0.95728 0.95818 0.95907 0.95994 0.96080 0.96164 0.96246 0.96327
1.8 0.96407 0.96485 0.96562 0.96638 0.96712 0.96784 0.96856 0.96926 0.96995 0.97062
1.9 0.97128 0.97193 0.97257 0.97320 0.97381 0.97441 0.97500 0.97558 0.97615 0.97670
75
2.0 0.97725 0.97778 0.97831 0.97882 0.97932 0.97982 0.98030 0.98077 0.98124 0.98169
2.1 0.98214 0.98257 0.98300 0.98341 0.98382 0.98422 0.98461 0.98500 0.98537 0.98574
2.2 0.98610 0.98645 0.98679 0.98713 0.98745 0.98778 0.98809 0.98840 0.98870 0.98899
2.3 0.98928 0.98956 0.98983 0.99010 0.99036 0.99061 0.99086 0.99111 0.99134 0.99158
2.4 0.99180 0.99202 0.99224 0.99245 0.99266 0.99286 0.99305 0.99324 0.99343 0.99361
2.5 0.99379 0.99396 0.99413 0.99430 0.99446 0.99461 0.99477 0.99492 0.99506 0.99520
2.6 0.99534 0.99547 0.99560 0.99573 0.99585 0.99598 0.99609 0.99621 0.99632 0.99643
2.7 0.99653 0.99664 0.99674 0.99683 0.99693 0.99702 0.99711 0.99720 0.99728 0.99736
2.8 0.99744 0.99752 0.99760 0.99767 0.99774 0.99781 0.99788 0.99795 0.99801 0.99807
2.9 0.99813 0.99819 0.99825 0.99831 0.99836 0.99841 0.99846 0.99851 0.99856 0.99861
3.0 0.99865 0.99869 0.99874 0.99878 0.99882 0.99886 0.99889 0.99893 0.99897 0.99900
α
0.0005 0.001 0.005 0.01 0.025 0.05 0.10
zα
3.29 3.09 2.576 2.326 1.960 1.645 1.282
Τιμών aνt ; της νt -κατανομής ώστε atPtP aννaνν  )()( ;; ` TT .
ν
α = 0.10 α = 0.05 α = 0.025 α = 0.01 α = 0.005
1 3.078 6.314 12.706 31.821 63.657
2 1.886 2.920 4.303 6.965 9.925
3 1.638 2.353 3.182 4.541 5.841
4 1.533 2.132 2.776 3.747 4.604
76
5 1.476 2.015 2.571 3.365 4.032
6 1.440 1.943 2.447 3.143 3.707
7 1.415 1.895 2.365 2.998 3.499
8 1.397 1.860 2.306 2.896 3.355
9 1.383 1.833 2.262 2.821 3.250
10 1.372 1.812 2.228 2.764 3.169
11 1.363 1.796 2.201 2.718 3.106
12 1.356 1.782 2.179 2.681 3.055
13 1.350 1.771 2.160 2.650 3.012
14 1.345 1.761 2.145 2.624 2.977
15 1.341 1.753 2.131 2.602 2.947
16 1.337 1.746 2.120 2.583 2.921
17 1.333 1.740 2.110 2.567 2.898
18 1.330 1.734 2.101 2.552 2.878
19 1.328 1.729 2.093 2.539 2.861
20 1.325 1.725 2.086 2.528 2.845
21 1.323 1.721 2.080 2.518 2.831
22 1.321 1.717 2.074 2.508 2.819
23 1.319 1.714 2.069 2.500 2.807
24 1.318 1.711 2.064 2.492 2.797
25 1.316 1.708 2.060 2.485 2.787
26 1.315 1.706 2.056 2.479 2.779
27 1.314 1.703 2.052 2.473 2.771
28 1.313 1.701 2.048 2.467 2.763
29 1.311 1.699 2.045 2.462 2.756
 1.282 1.645 1.960 2.326 2.576
77
Tων τιμών 2
aνχ 1; της 2
χ κατανομής για τις οποίες
aχXPχXP a-1;νa-1;ν  )()( 22
.
ν α = 0.005 α = 0.01 α = 0.025 α = 0.05 α = 0.10
1 0.0000393 0.0001571 0.0009821 0.0039321 0.0157908
2 0.0100251 0.0201007 0.0506356 0.102587 0.210720
3 0.0717212 0.114832 0.215795 0.351846 0.584375
4 0.206990 0.297110 0.484419 0.710721 1.063623
5 0.411740 0.554300 0.831211 1.145476 1.61031
6 0.675727 0.872085 1.237347 1.63539 2.20413
7 0.989265 1.239043 1.68987 2.16735 2.83311
8 1.344419 1.646482 2.17973 2.73264 3.48954
9 1.734926 2.087912 2.70039 3.32511 4.16816
10 2.15585 2.55821 3.24697 3.94030 4.86518
11 2.60321 3.05347 3.81575 4.57481 5.57779
12 3.07382 3.57056 4.40379 5.22603 6.30380
13 3.56503 4.10691 5.00874 5.89186 7.04150
14 4.07468 4.66043 5.62872 6.57063 7.78953
15 4.60094 5.22935 6.26214 7.26094 8.54675
16 5.14224 5.81221 6.90766 7.96164 9.31223
17 5.69724 6.40776 7.56418 8.67176 10.0852
18 6.26481 7.01491 8.23075 9.39046 10.8649
19 6.84398 7.63273 8.90655 10.1170 11.6509
78
20 7.43386 8.26040 9.59083 10.8508 12.4426
21 8.03366 8.89720 10.28293 11.5913 13.2396
22 8.64272 9.54249 10.9823 12.3380 14.0415
23 9.26042 10.19567 11.6885 13.0905 14.8479
24 9.88623 10.8564 12.4011 13.8484 15.6587
25 10.5197 11.5240 13.1197 14.6114 16.4734
26 11.1603 12.1981 13.8439 15.3791 17.2919
27 11.8076 12.8786 14.5733 16.1513 18.1138
28 12.4613 13.5648 15.3079 16.9279 18.9392
29 13.1211 14.2565 16.0471 17.7083 19.7677
30 13.7867 14.9535 16.7908 18.4926 20.5992
40 20.7065 22.1643 24.4331 26.5093 29.0505
50 27.9907 29.7067 32.3574 34.7642 37.6886
60 35.5346 37.4848 40.4817 43.1879 46.4589
70 43.2752 45.4418 48.7576 51.7393 55.3290
80 51.1720 53.5400 57.1532 60.3915 64.2778
90 59.1963 61.7541 65.6466 69.1260 73.2912
100 67.3276 70.0648 74.2219 77.9295 82.3581
79
Tων τιμών 2
a;νχ της 2
χ κατανομής για τις οποίες
aχXPχXP a;νa;ν  )()( 22
.
ν Α = 0.10 α = 0.05 α = 0.025 α = 0.01 α = 0.005
1 2.70554 3.84146 5.02389 6.63490 7.87944
2 4.60517 5.99147 7.37776 9.21034 10.5966
3 6.25139 7.81473 9.34840 11.3449 12.8381
4 7.77944 9.48773 11.1433 13.2767 14.8602
5 9.23635 11.0705 12.8325 15.0863 16.7496
6 10.6446 12.5916 14.4494 16.8119 18.5476
7 12.0170 14.0671 16.0128 18.4753 20.2777
8 13.3616 15.5073 17.5346 20.0902 21.9550
9 14.6837 16.9190 19.0228 21.6660 23.5893
10 15.9871 18.3070 20.4831 23.2093 25.1882
11 17.2750 19.6751 21,9200 24.7250 26.7569
12 18.5494 21.0261 23.3367 26.2170 28.2995
13 19.8119 22.3621 24.7356 27.6883 29.8194
14 21.0642 23.6848 26.1190 29.1413 31.3193
15 22.3072 24.9958 27.4884 30.5779 32.8013
16 23.5418 26.2962 28.8454 31.9999 34.2672
17 24.7690 27.5871 30.1910 33.4087 35.7185
18 25.9894 28.8693 31.5264 34.8053 37.1564
19 27.2036 30.1435 32.8523 36.1908 38.5822
80
20 28.4120 31.4104 34.1696 37.5662 39.9968
21 29.6151 32.6705 35.4789 38.9321 41.4010
22 30.8133 33.9244 36.7807 40.2894 42.7956
23 32.0069 35.1725 38.0757 41.6384 44.1813
24 33.1963 36.4151 39.3641 42.9798 45.5585
25 34.3816 37.6525 40.6465 44.3141 46.9278
26 35.5631 38.8852 41.9232 45.6417 48.2899
27 36.7412 40.1133 43.1944 46.9630 49.6449
28 37.9159 41.3372 44.4607 48.2782 50.9933
29 39.0875 42.5569 45.7222 49.5879 52.3356
30 40.2560 43.7729 46.9792 50.8922 53.6720
40 51.8050 55.7585 59.3417 63.6907 66.7659
50 63.1671 67.5048 71.4202 76.1539 79.4900
60 74.3970 79.0819 83.2976 88.3794 91.9517
70 85.5271 90.5312 95.0231 100.425 104.215
80 96.5782 101.879 106.629 112.329 116.321
90 107.565 113.145 118.136 124.116 128.299
100 118.498 124.342 129.561 135.807 140.169
81
Τιμές aννF ;, 21
της F κατανομής για τις οποίες
aFXPFXP aννaνν  )()( ;,;, 2121
)( 01.0a .
Για τα α - κάτω ποσοστιαία σημεία aννF 1;, 21
ισχύει η σχέση aννaνν FF ;,;, 1221
11 
.
1ν
2ν
1 2 3 4 5 6 7 8 9
1 4052 4999.5 5403 5625 5764 5859 5928 5982 6022
2 98.50 99.00 99.17 99.25 99.30 99.33 99.36 99.37 99.39
3 34.12 30.82 29.46 28.71 28.24 27.91 27.67 27.49 27.35
4 21.20 18.00 16.69 15.98 15.52 15.21 14.98 14.80 14.66
5 16.26 13.27 12.06 11.39 10.97 10.67 10.46 10.29 10.16
6 13.75 10.92 9.78 9.15 8.75 8.47 8.26 8.10 7.98
7 12.25 9.55 8.45 7.85 7.46 7.19 6.99 6.84 6.72
8 11.26 8.65 7.59 7.01 6.63 6.37 6.18 6.03 5.91
9 10.56 8.02 6.99 6.42 6.06 5.80 5.61 5.47 5.35
10 10.04 7.56 6.55 5.99 5.64 5.39 5.20 5.06 4.94
11 9.65 7.21 6.22 5.67 5.32 5.07 4.89 4.74 4.63
12 9.33 6.93 5.95 5.41 5.06 4.82 4.64 4.50 4.39
13 9.07 6.70 5.74 5.21 4.86 4.62 4.44 4.30 4.19
14 8.86 6.51 5.56 5.04 4.69 4.46 4.28 4.14 4.03
82
15 8.68 6.36 5.42 4.89 4.56 4.32 4.14 4.00 3.89
16 8.53 6.23 5.29 4.77 4.44 4.20 4.03 3.89 3.78
17 8.40 6.11 5.18 4.67 4.34 4.10 3.93 3.79 3.68
18 8.29 6.01 5.09 4.58 4.25 4.01 3.84 3.71 3.60
19 8.18 5.93 5.01 4.50 4.17 3.94 3.77 3.63 3.52
20 8.10 5.85 4.94 4.43 4.10 3.87 3.70 3.56 3.46
21 8.02 5.78 4.87 4.37 4.04 3.81 3.64 3.51 3.40
22 7.95 5.72 4.82 4.31 3.99 3.76 3.59 3.45 3.35
23 7.88 5.66 4.76 4.26 3.94 3.71 3.54 3.41 3.30
24 7.82 5.61 4.72 4.22 3.90 3.67 3.50 3.36 3.26
25 7.77 5.57 4.68 4.18 3.85 3.63 3.46 3.32 3.22
26 7.72 5.53 4.64 4.14 3.82 3.59 3.42 3.29 3.18
27 7.68 5.49 4.60 4.11 3.78 3.56 3.39 3.26 3.15
28 7.64 5.45 4.57 4.07 3.75 3.53 3.36 3.23 3.12
29 7.60 5.42 4.54 4.04 3.73 3.50 3.33 3.20 3.09
30 7.56 5.39 4.51 4.02 3.70 3.47 3.30 3.17 3.07
40 7.31 5.18 4.31 3.83 3.51 3.29 3.12 2.99 2.89
60 7.08 4.98 4.13 3.65 3.34 3.12 2.95 2.82 2.72
120 6.85 4.79 3.95 3.48 3.17 2.96 2.79 2.66 2.56
 6.63 4.61 3.78 3.32 3.02 2.80 2.64 2.51 2.41
83
Τιμές aννF ;, 21
της F κατανομής για τις οποίες
aFXPFXP aννaνν  )()( ;,;, 2121
)( 01.0a .
Για τα α - κάτω ποσοστιαία σημεία aννF 1;, 21
ισχύει η σχέση aννaνν FF ;,;, 1221
11 
.
1ν
2ν
10 12 15 20 24 30 40 60 120 
1 6056 6106 6157 6209 6235 6261 6287 6313 6339 6366
2 99.40 99.42 99.43 99.45 99.46 99.47 99.47 99.48 99.49 99.50
3 27.23 27.05 26.87 26.69 26.60 26.50 26.41 26.32 26.22 26.13
4 14.55 14.37 14.20 14.02 13.93 13.84 13.75 13.65 13.56 13.46
5 10.05 9.89 9.72 9.55 9.47 9.38 9.29 9.20 9.11 9.02
6 7.87 7.72 7.56 7.40 7.31 7.23 7.14 7.06 6.97 6.88
7 6.62 6.47 6.31 6.16 6.07 5.99 5.91 5.82 5.74 5.65
8 5.81 5.67 5.52 5.36 5.28 5.20 5.12 5.03 4.95 4.86
9 5.26 5.11 4.96 4.81 4.73 4.65 4.57 4.48 4.40 4.31
10 4.85 4.71 4.56 4.41 4.33 4.25 4.17 4.08 4.00 3.91
11 4.54 4.40 4.25 4.10 4.02 3.94 3.86 3.78 3.69 3.60
12 4.30 4.16 4.01 3.86 3.78 3.70 3.62 3.54 3.45 3.36
13 4.10 3.96 3.82 3.66 3.59 3.51 3.43 3.34 3.25 3.17
14 3.94 3.80 3.66 3.51 3.43 3.35 3.27 3.18 3.09 3.00
84
15 3.80 3.67 3.52 3.37 3.29 3.21 3.13 3.05 2.96 2.87
16 3.69 3.55 3.41 3.26 3.18 3.10 3.02 2.93 2.84 2.75
17 3.59 3.46 3.31 3.16 3.08 3.00 2.92 2.83 2.75 2.65
18 3.51 3.37 3.23 3.08 3.00 2.92 2.84 2.75 2.66 2.57
19 3.43 3.30 3.15 3.00 2.92 2.84 2.76 2.67 2.58 2.49
20 3.37 3.23 3.09 2.94 2.86 2.78 2.69 2.61 2.52 2.42
21 3.31 3.17 3.03 2.88 2.80 2.72 2.64 2.55 2.46 2.36
22 3.26 3.12 2.98 2.83 2.75 2.67 2.58 2.50 2.40 2.31
23 3.21 3.07 2.93 2.78 2.70 2.62 2.54 2.45 2.35 2.26
24 3.17 3.03 2.89 2.74 2.66 2.58 2.49 2.40 2.31 2.21
25 3.13 2.99 2.85 2.70 2.62 2.54 2.45 2.36 2.27 2.17
26 3.09 2.96 2.81 2.66 2.58 2.50 2.42 2.33 2.23 2.13
27 3.06 2.93 2.78 2.63 2.55 2.47 2.38 2.29 2.20 2.10
28 3.03 2.90 2.75 2.60 2.52 2.44 2.35 2.26 2.17 2.06
29 3.00 2.87 2.73 2.57 2.49 2.41 2.33 2.23 2.14 2.03
30 2.98 2.84 2.70 2.55 2.47 2.39 2.30 2.21 2.11 2.01
40 2.80 2.66 2.52 2.37 2.29 2.20 2.11 2.02 1.92 1.80
60 2.63 2.50 2.35 2.20 2.12 2.03 1.94 1.84 1.73 1.60
120 2.47 2.34 2.19 2.03 1.95 1.86 1.76 1.66 1.53 1.38
 2.32 2.18 2.04 1.88 1.79 1.70 1.59 1.47 1.32 1.00
85
Τιμές aννF ;, 21
της F κατανομής για τις οποίες
aFXPFXP aννaνν  )()( ;,;, 2121
)( 05.0a .
Για τα α - κάτω ποσοστιαία σημεία aννF 1;, 21
ισχύει η σχέση aννaνν FF ;,;, 1221
11 
.
1ν
2ν
1 2 3 4 5 6 7 8 9
1 161.4 199.5 215.7 224.6 230.2 234.0 236.8 238.9 240.5
2 18.51 19.00 19.16 19.25 19.30 19.33 19.35 19.37 19.38
3 10.13 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81
4 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00
5 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77
6 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10
7 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68
8 5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44 3.39
9 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.18
10 4.96 4.10 3.71 3.48 3.33 3.22 3.14 3.07 3.02
11 4.84 3.98 3.59 3.36 3.20 3.09 3.01 2.95 2.90
12 4.75 3.89 3.49 3.26 3.11 3.00 2.91 2.85 2.80
13 4.67 3.81 3.41 3.18 3.03 2.92 2.83 2.77 2.71
14 4.60 3.74 3.34 3.11 2.96 2.85 2.76 2.70 2.65
86
15 4.54 3.68 3.29 3.06 2.90 2.79 2.71 2.64 2.59
16 4.49 3.63 3.24 3.01 2.85 2.74 2.66 2.59 2.54
17 4.45 3.59 3.20 2.96 2.81 2.70 2.61 2.55 2.49
18 4.41 3.55 3.16 2.93 2.77 2.66 2.58 2.51 2.46
19 4.38 3.52 3.13 2.90 2.74 2.63 2.54 2.48 2.42
20 4.35 3.49 3.10 2.87 2.71 2.60 2.51 2.45 2.39
21 4.32 3.47 3.07 2.84 2.68 2.57 2.49 2.42 2.37
22 4.30 3.44 3.05 2.82 2.66 2.55 2.46 2.40 2.34
23 4.28 3.42 3.03 2.80 2.64 2.53 2.44 2.37 2.32
24 4.26 3.40 3.01 2.78 2.62 2.51 2.42 2.36 2.30
25 4.24 3.39 2.99 2.76 2.60 2.49 2.40 2.34 2.28
26 4.23 3.37 2.98 2.74 2.59 2.47 2.39 2.32 2.27
27 4.21 3.35 2.96 2.73 2.57 2.46 2.37 2.31 2.25
28 4.20 3.34 2.95 2.71 2.56 2.45 2.36 2.29 2.24
29 4.18 3.33 2.93 2.70 2.55 2.43 2.35 2.28 2.22
30 4.17 3.32 2.92 2.69 2.53 2.42 2.33 2.27 2.21
40 4.08 3.23 2.84 2.61 2.45 2.34 2.25 2.18 2.12
60 4.00 3.15 2.76 2.53 2.37 2.25 2.17 2.10 2.04
120 3.92 3.07 2.68 2.45 2.29 2.17 2.09 2.02 1.96
 3.84 3.00 2.60 2.37 2.21 2.10 2.01 1.94 1.88
87
Τιμές aννF ;, 21
της F κατανομής για τις οποίες
aFXPFXP aννaνν  )()( ;,;, 2121
)( 05.0a .
Για τα α - κάτω ποσοστιαία σημεία aννF 1;, 21
ισχύει η σχέση aννaνν FF ;,;, 1221
11 
.
1ν
2ν
10 12 15 20 24 30 40 60 120 
1 241.9 243.9 245.9 248.0 249.1 250.1 251.1 252.2 253.3 254.3
2 19.40 19.41 19.43 19.45 19.45 19.46 19.47 19.48 19.49 19.50
3 8.79 8.74 8.70 8.66 8.64 8.62 8.59 8.57 8.55 8.53
4 5.96 5.91 5.86 5.80 5.77 5.75 5.72 5.69 5.66 5.63
5 4.74 4.68 4.62 4.56 4.53 4.50 4.46 4.43 4.40 4.36
6 4.06 4.00 3.94 3.87 3.84 3.81 3.77 3.74 3.70 3.67
7 3.64 3.57 3.51 3.44 3.41 3.38 3.34 3.30 3.27 3.23
8 3.35 3.28 3.22 3.15 3.12 3.08 3.04 3.01 2.97 2.93
9 3.14 3.07 3.01 2.94 2.90 2.86 2.83 2.79 2.75 2.71
10 2.98 2.91 2.85 2.77 2.74 2.70 2.66 2.62 2.58 2.54
11 2.85 2.79 2.72 2.65 2.61 2.57 2.53 2.49 2.45 2.40
12 2.75 2.69 2.62 2.54 2.51 2.47 2.43 2.38 2.34 2.30
13 2.67 2.60 2.53 2.46 2.42 2.38 2.34 2.30 2.25 2.21
14 2.60 2.53 2.46 2.39 2.35 2.31 2.27 2.22 2.18 2.13
88
15 2.54 2.48 2.40 2.33 2.29 2.25 2.20 2.16 2.11 2.07
16 2.49 2.42 2.35 2.28 2.24 2.19 2.15 2.11 2.06 2.01
17 2.45 2.38 2.31 2.23 2.19 2.15 2.10 2.06 2.01 1.96
18 2.41 2.34 2.27 2.19 2.15 2.11 2.06 2.02 1.97 1.92
19 2.38 2.31 2.23 2.16 2.11 2.07 2.03 1.98 1.93 1.88
20 2.35 2.28 2.20 2.12 2.08 2.04 1.99 1.95 1.90 1.84
21 2.32 2.25 2.18 2.10 2.05 2.01 1.96 1.92 1.87 1.81
22 2.30 2.23 2.15 2.07 2.03 1.98 1.94 1.89 1.84 1.78
23 2.27 2.20 2.13 2.05 2.01 1.96 1.91 1.86 1.81 1.76
24 2.25 2.18 2.11 2.03 1.98 1.94 1.89 1.84 1.79 1.73
25 2.24 2.16 2.09 2.01 1.96 1.92 1.87 1.82 1.77 1.71
26 2.22 2.15 2.07 1.99 1.95 1.90 1.85 1.80 1.75 1.69
27 2.20 2.13 2.06 1.97 1.93 1.88 1.84 1.79 1.73 1.67
28 2.19 2.12 2.04 1.96 1.91 1.87 1.82 1.77 1.71 1.65
29 2.18 2.10 2.03 1.94 1.90 1.85 1.81 1.75 1.70 1.64
30 2.16 2.09 2.01 1.93 1.89 1.84 1.79 1.74 1.68 1.62
40 2.08 2.00 1.92 1.84 1.79 1.74 1.69 1.64 1.58 1.51
60 1.99 1.92 1.84 1.75 1.70 1.65 1.59 1.53 1.47 1.39
120 1.91 1.83 1.75 1.66 1.61 1.55 1.50 1.43 1.35 1.25
 1.83 1.75 1.67 1.57 1.52 1.46 1.39 1.32 1.22 1.00
89
Βιβλιογραφία
Ελληνική Βιβλιογραφία
 Πέτρος Α. Κιόχος( 1993), Στατιστική, Εκδ. Interbooks, Αθήνα
 Χρήστος Κ. Φράγκος(1998), Στατιστική Επιχειρήσεων για τις
οικονομικές και κοινωνικές επιστήμες, Εκδ. Α. Σταμούλης, Αθήνα
 Χαράλαμπος Γναρδέλλης(2003), Εφαρμοσμένη Στατιστική, Εκδ.
Παπαζήσης.
 Λαζαρίδης,, Αλέξανδρος, Ν.(2008) , Στατιστική, Εκδ. Δίαυλος.
 Εγκυκλοπαίδεια Νέα Δομή έγχρωμη(1996), Εκδ. Δομή ,Αθήνα.
Ξενόγλωσση Βιβλιογραφία
 Gerald Keller (2010), Στατιστική για Οικονομικά και Διοίκηση
Επιχειρήσεων, Εκδ. Επίκεντρο, Θεσσαλονίκη.
90
 Bernard W.Lindgren, Statistical Theory Fourth Edition, Εκδ. Chapman
&Hall/CRC.
Χρήσιμες Ιστοσελίδες
 http://cran.r-project.org/doc/contrib/mainfokianoscharalambous.pdf
 http://www.math.ntua.gr/~fouskakis/Data_Analysis/02.pdf
 http://www.cyclismo.org/tutorial/R/index.html
 http://www.statmethods.net/
 http://www.r-tutor.com/

R statistics

  • 1.
    ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑΠΑΤΡΩΝ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕΔΙΑΣΜΟΥ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΣΤΑΤΙΣΤΙΚΗ ΜΕ ΤΟ ΠΡΟΓΡΑΜΜΑ R ΚΑΛΑΝΔΡΑΚΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ Α.Μ. 2185 ΚΟΥΚΟΣ ΧΡΗΣΤΟΣ Α.Μ. 2254 ΚΛΑΔΗ ΚΟΚΚΙΝΟΥ ΜΑΙΡΗ Α.Μ. 2364 ΕΠΟΠΤΕΥΩΝ ΚΑΘΗΓΗΤΗΣ: ΚΟΥΝΕΤΑΣ ΚΩΝΣΤΑΝΤΙΝΟΣ ΠΑΤΡΑ 2013
  • 2.
    1 Ευχαριστίες Η ολοκλήρωση αυτήςτης έρευνας υλοποιήθηκε με την υποστήριξη ενός αριθμού ανθρώπων, που χωρίς αυτούς θα ήταν πολύ δύσκολο να επιτευχθεί. Πρώτα απ’ όλα, θα θέλαμε να ευχαριστήσουμε τον επιβλέποντα της πτυχιακής εργασίας ,κ. Κωνσταντίνο Κουνετά, για την πολύτιμη βοήθεια του αλλά και καθοδήγηση του καθ όλη την διάρκεια της δουλειάς μας. Επίσης , είμαστε ευγνώμων στουςγονείς μας, που ήταν δίπλα μας και μας υποστήριζαν από την αρχή των σχολικών μας χρόνων μέχρι και τώρα που φτάνουμε στο τέλος. ΚΑΛΑΝΔΡΑΚΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ ΚΟΥΚΟΣ ΧΡΗΣΤΟΣ ΚΛΑΔΗ ΚΟΚΚΙΝΟΥ ΜΑΙΡΗ
  • 3.
    2 Περιεχόμενα Περίληψη .......................................................................................................5 ΚΕΦΑΛΑΙΟ 1................................................................................................6 1.1Εισαγωγή στην Στατιστική.........................................................................7 1.2Εισαγωγή για το R.....................................................................................9 1.2.1 Γενικές πληροφορίες για το πρόγραμμα................................................9 1.2.2 Γνωριμία με το περιβάλλον................................................................10 1.2.3 Εισαγωγή Δεδομένων στο Πρόγραμμα...............................................17 1.2.4Αποθήκευση και επανάκτηση δεδομένων ............................................18 1.2.5 Συχνά προβλήματα και αντιμετώπιση τους .........................................18 1.3.1 Τελεστές Εκχώρησης και Σύγκρισης .................................................20 1.3.2 Αριθμητικοί Τελεστές........................................................................20 1.4 Βασικές Αριθμητικές Συναρτήσεις της R..................................................21 ΚΕΦΑΛΑΙΟ 2..............................................................................................22 2.1 Εύρεση Μέσου, Διάμεσου και επικρατούσας τιμής...................................23 2.2 Εύρεση τυπικής απόκλισης και διασποράς................................................25 2.3 Εύρεση Τεταρτημόριων...........................................................................26 2.4 Εύρεση συχνοτήτων, σχετικώνσυχνοτήτων ,δημιουργία πίταςκαι ιστογράμματος..............................................................................................28 2.4.1Εύρεση Συχνοτήτων και Σχετικών Συχνοτήτων ...................................29 2.4.2Δημιουργία Πίτας και Ιστογράμματος .................................................31 2.5 Χρονοσειρά.............................................................................................35
  • 4.
    3 2.6 Εύρεση Κλάσεων,δημιουργία ιστογράμματος..........................................37 2.6.1 Εύρεση Κλάσεων, δημιουργία ιστογράμματος ....................................41 2.7 Ελαχίστων Τετραγώνων...........................................................................46 2.8 Άσκηση ελέγχου με γνωστό τον έλεγχο και την τυπική απόκλιση..............53 2.9 Άσκηση ελέγχου με γνωστό μέσο.............................................................55 2.9.1 Εισαγωγή δεδομένων χωρίς διάβασμα από αρχείο...............................55 2.10 Έλεγχος αναλογίας ενός πληθυσμού......................................................56 2.11 Έλεγχος ίσων διασπορών.......................................................................58 2.12 Έλεγχος για το λόγο των διασπορών.....................................................59 2.13 Έλεγχος ίσων διασπορών.......................................................................61 2.14 Έλεγχος Διασποράς...............................................................................62 2.15 Έλεγχος υπόθεσης.................................................................................64 2.16 Έλεγχος υπόθεσης.................................................................................65 2.17 Έλεγχος καλής προσαρμογής .................................................................66 ΚΕΦΑΛΑΙΟ 3..............................................................................................68 3.1 Με λίγα λόγια..........................................................................................69 3.1.2 Πλεονεκτήματα και Μειονεκτήματα του Προγράμματος.....................69 3.1.2.1 Πλεονεκτήματα............................................................................69 1.3.2.2 Μειονεκτήματα............................................................................70 3.1.3 Σύγκριση με άλλα στατιστικά προγράμματα. ......................................71 3.1.4 Προτάσεις. ........................................................................................72 3.2 Συμπεράσματα. .......................................................................................72 Πίνακες ........................................................................................................74 Τιμές των πιθανοτήτων )()()( zZPzZPzΦ  της τυποποιημένης κανονικής κατανομής )1(0,N για 0z . Για 0z ισχύει )(1)( zΦzΦ  .......74 α................................................................................................................75 Τιμών aνt ; της νt -κατανομής ώστε atPtP aννaνν  )()( ;; ` TT .....................75 ν.............................................................................................................75
  • 5.
    4 Tων τιμών 2 aνχ1; της 2 χ κατανομής για τις οποίες aχXPχXP a-1;νa-1;ν  )()( 22 . .................................................................77 Tων τιμών 2 a;νχ της 2 χ κατανομής για τις οποίες aχXPχXP a;νa;ν  )()( 22 ..................................................................................................................79 Τιμές aννF ;, 21 της F κατανομήςγια τις οποίες aFXPFXP aννaνν  )()( ;,;, 2121 )( 01.0a . ......................................81 Τιμές aννF ;, 21 της F κατανομήςγια τις οποίες aFXPFXP aννaνν  )()( ;,;, 2121 )( 01.0a . ......................................83 Τιμές aννF ;, 21 της F κατανομήςγια τις οποίες aFXPFXP aννaνν  )()( ;,;, 2121 )( 05.0a .......................................85 Τιμές aννF ;, 21 της F κατανομήςγια τις οποίες aFXPFXP aννaνν  )()( ;,;, 2121 )( 05.0a .......................................87 Βιβλιογραφία................................................................................................89 Ελληνική Βιβλιογραφία..............................................................................89 Ξενόγλωσση Βιβλιογραφία.........................................................................89 Χρήσιμες Ιστοσελίδες................................................................................90
  • 6.
    5 Περίληψη Σκοπός αυτήςτης εργασίαςείναι η γνωριμία, η κατανόηση και εξοικείωση με το πρόγραμμα R σε ότι αφορά θέματα στατιστικής φύσης. Η έρευνα αυτή θα αναφερθεί ως επί των πλείστων σε βασικούς ορισμούς της στατιστικής, σε εισαγωγικά θέματα που αφορούν το πρόγραμμα ,αλλά και στατιστικές μελέτες χρησιμοποιώνταςτο R . Μέσω των ασκήσεων θα δούμε, με τον πιο απλό τρόπο την επίλυση προβλημάτων χρησιμοποιώντας εντολές και στην συνέχεια υα εξετάσουμε τα αποτελέσματα τα οποία προέκυψαν. Τέλος, ακόμα ένας σκοπός αυτήςτης εργασίας είναι η εξαγωγή χρήσιμων συμπερασμάτων σχετικά με τις στατιστικές μελέτες μέσω του προγράμματος R, η κριτική του προγράμματος αυτού κάθε αυτού. Η σύγκριση του με αλλά στατιστικά προγράμματα , αλλά και η διαμόρφωση προτάσεων σχετικά με το πρόγραμμα.
  • 7.
  • 8.
    7 1.1 Εισαγωγή στηνΣτατιστική Για να καταλάβουμεκαλύτερα τις στατιστικέςμελέτες πάνω στο πρόγραμμα R θα πρέπει να εξηγήσουμε κάποια βασικά χαρακτηριστικά της Στατιστικής επιστήμης, όπως είναι οι βασικοί ορισμοί αλλά και τα είδη τους. Αρχικά, για την διεξαγωγή συμπερασμάτων, εξετάζουμε τα δεδομένα ενός Πληθυσμού. Ο πληθυσμός είναι ένα σύνολο από στοιχεία, τα οποία και ερευνούμε. Όπως γίνεται αντιληπτό , ο πληθυσμός μπορεί να είναι αρκετά μεγάλος και η εξαγωγή συμπερασμάτων να γίνει εξαιρετικά χρονοβόρα αλλά και αρκετά ζημιογόνα για μια επιχείρηση. Γι’ αυτό τον λόγο, από το σύνολο του πληθυσμού διαλέγουμε ένα δείγμα, το οποίο είναι ένα υποσύνολο του πληθυσμού, με σκοπό να γίνει η ανάλυση των μεταβλητών με μεγαλύτερη ταχύτητα. . Οι μεταβλητές αυτές χωρίζονται σε δυο κατηγορίες : στις ποσοτικές και στις ποιοτικές μεταβλητές. Οι ποιοτικές μεταβλητές είναι στοιχεία ενός δείγματος τα οποία δεν δέχονται αριθμητική μέτρηση. Τέτοιες μεταβλητές μπορεί να απαντάνε σε ερωτήματα όπως φύλου( Άνδρα, Γυναίκα), οικογενειακής κατάστασης ( Έγγαμος, Άγαμος, Διαζευγμένος), επαγγελματικής κατάστασης κ.τ.λ. Οι ποσοτικέςμεταβλητέςείναι αυτές πο δέχονται αριθμητική μέτρηση. Με την σειρά τους χωρίζονται σε άλλες δύο υποκατηγορίες : στις συνεχείς και στις ασυνεχείς. Συνεχείς ονομάζουμε εκείνες οι οποίες μπορούννα πάρουν τις τιμές ενός διαστήματος πραγματικών αριθμών, και απαντούν σε ερωτήματα όπως ύψος , μισθός, κιλά και άλλα. Αντίθετα, ασυνεχείς ονομάζουμε εκείνες οι οποίες μπορούν να πάρουν ακέραιες μεταβλητές και απαντούν σε ερωτήματα όπως αριθμό σπιτιών, αριθμό παιδιών και αλλά. Μια άλλη μελέτη αυτών των δεδομένων μας δίνει αρκετά χρήσιμα στοιχεία όπως είναι τα μέτρα θέσης και τα μέτρα διασποράς. Μερικά από τα κυριότερα μέτρα θέσης, όπως η μέση τιμή ή η διάμεσος των μεταβλητών μας ,μας δίνουν χρήσιμες πληροφορίες για το φάσμα του δείγματος μας. Από την άλλη , το εύρος, η διακύμανση , η τυπική απόκλιση και ο συντελεστής μεταβολής μας δίνουνακόμα περισσότερα στοιχεία σχετικά με την κατανομή των μεταβλητών μας γύρω από την κεντρική τιμή του δείγματος μας. Τα μέτρα θέσης αλλά και διασποράς περιγράφουν λίγο πολύ τη περιγραφική στατιστική και είναι μια απλή μέθοδος ελέγχου των μεταβλητών , αλλά ταυτόχρονα αρκετά
  • 9.
    8 χρήσιμη για τηνεξαγωγή συμπερασμάτων Στην σύγχρονη στατιστική, παρ’ όλα αυτά , για την απόρροια συμπερασμάτων μπορεί να γίνει με τον έλεγχο υποθέσεων και την εύρεση διαστημάτων εμπιστοσύνης. Ο έλεγχος υποθέσεων ανήκουν στην επαγωγική στατιστική ή Στατιστική συμπερασματολογίας και όπως αντιλαμβανόμαστε και από την ονομασία της σκοπόςτης είναι να καταλήξουμε σε συμπεράσματα μέσα από την απόρριψη ή την αποδοχή υποθέσεων βάση των στοιχείων- μεταβλητών που μελετάμε, όπως επίσης και η πιθανότητα εύρεσης σωστών αποτελεσμάτων μέσα σε ένα συγκεκριμένο πλαίσιο.
  • 10.
    9 1.2Εισαγωγή για τοR 1.2.1 Γενικές πληροφορίες για το πρόγραμμα Tο R είναι μια πλατφόρμα την οποία την χρησιμοποιούν για την επεξεργασία υπολογισμών, γραφημάτων και την εφαρμογή στατιστικών τεχνικών. Οι δυνατότητες του είναι τεράστιες μίας και ο χρήστης έχει την δυνατότητα να χρησιμοποιεί έτοιμα προγράμματα τα οποία είναι ενσωματωμένα μέσα σε πακέτα ή μπορεί να προγραμματίσει και ο ίδιος για την επίλυση πολύπλοκων προβλημάτων. Η γλώσσα πάνω στην οποία ο χρήστης μπορεί να προγραμματίσει είναι μια διάλεκτος της S. Αν και το R με την S δεν είναι απόλυτα συμβατά μεταξύ τους, μπορεί και τρέχει στο R χωρίς καμία αλλαγή. Στην S οι εντολές αφού διαβαστούν εκτελούνται αμέσως κάτι το οποίο δεν συμβαίνει στη γλώσσα Fortran. Ένα χαρακτηριστικότων διερμηνέων γλωσσών ,όπως είναι η S,είναι ότι επιτρέπουν την σταδιακή ανάπτυξη. Πιο αναλυτικά, ο χρήστης δημιουργεί μια συνάρτηση ,την εκτελεί και μετά έχει την δυνατότητα να δημιουργήσει μια καινούρια η οποία χρησιμοποίει και την πρώτη. Τέλος,ένα από τα πλεονεκτήματα του R είναι ότι μπορεί να αποκτηθεί δωρεάν ,μέσα από τις ιστοσελίδες http:/www.r-project.org και http:/www.cran.r-project.org .
  • 11.
    10 1.2.2 Γνωριμία μετο περιβάλλον Τα τελευταία περίπου δέκα χρόνια το R έχει γίνει ένα από τα πιο σημαντικά στατιστικά εργαλεία. Υπολογίζεται μάλιστα ότι πάνω από τρία εκατομμύρια χρηστές το χρησιμοποιούν τόσο στην ακαδημαϊκή κοινότητα όσο και στον επαγγελματικό τομέα. Το περιβάλλοντου είναι απλό. Ανοίγονταςτο πρόγραμμα εμφανίζεται η βασική οθόνη στην οποία βρίσκεται το παράθυρο των εντολών και η γραμμή εργαλείων. Πατώντας το κουμπί “file” να μπορούμε να κάνουμε μια σειρά από βασικές ενέργειες. Αρχικά, μπορούμε να εισάγουμε κώδικα και γενικότερα εντολές από προηγούμενεςαναλύσεις και εφαρμογές μας. Αυτό επιτυχαίνεται με το source R code. Μια πολύ σημαντική επιλογή που μας δίνει το πρόγραμμα είναι το “new script”. Εδώ μπορούμε να γράψουμε τις εντολές που θέλουμε να εκτελέσουμε.
  • 12.
    11 Μαυρίζονταςαυτές πουθέλουμε νατρέξουμε και πατώντας με δεξί κλικ πάνω στον συντάκτη επιλεγούμε το run line ή selection.Μπορούμε να ανοίξουμε έναν παλιό συντάκτη με το “openscript” και να δούμε τα αρχεία R που μπορούμε να χρησιμοποιήσουμε του φακέλου που βρισκόμαστε με το “display file(s)”.Μπορούμε να φορτώσουμε και να αποθηκεύσουμε χώρο εργασίας (load/save workspace) όπως και να φορτώσουμε ή να αποθηκεύσουμε εντολές που έχουμε χρησιμοποιήσει στο παρελθόν(load/save history).Με την επιλογή “change dir” μπορούμε να αλλάξουμε τον φάκελο εργασίας μας. Tέλος, μπορούμε να εκτυπώσουμε (print) να αποθηκεύσουμε ν δουλειά μας σε μορφή txt (save to file) και να τερματίσουμε το πρόγραμμα (exit)
  • 13.
    12 Στο menu Editμας παρέχετε η δυνατότητα της αντιγραφής(copy),επικόλλησης (paste), της επιλογής όλων όσων έχουμε πληκτρολογήσει(select all) πχ εντολές, όπως επίσης και το να καθαρίσομε το παράθυροτων εντολών. Τέλος, μπορούμε κάνοντας κλικ πάνω στο “data editor” και “GUI preferences” να ανοίξουμε έναν συντάκτη δεδομένων για τα δεδομένα που είναι υπό τη μορφή πλαισίου δεδομένων και να τα επεξεργαστούμε και να αλλάξουμε το πώς φαίνεται το περιβάλλον στο όποιο δουλεύουμε αντίστοιχα.
  • 14.
    13 Στο “View” μπορούμενα την εμφανίσουμε ή όχι το την μπάρα τα βασικά εργαλεία δουλειάς(toolbar) από το περιβάλλον εργασίας όπως επίσης και τις πληροφορίες για την έκδοση του προγράμματος πουχρησιμοποιείτε (statusbar). Πατώντας το κουμπί “misc”μπορούμε να σταματήσουμε το τρέχον πρόγραμμα (stop current computations) ή όλα τα προγράμματα που εκτελούνται(stop all computations).Επίσης, έχουμε την δυνατότητα να σταματήσουμε την εκτύπωση των αποτελεσμάτων στην οθόνη(buffered output), να δούμε όλα τα αντικείμενα και τις αναλύσεις που έχουμε κάνει (list objects) και να τα διαγράψουμε (remove all objects). Τέλος , να δούμε τις βιβλιοθήκες(libraries) και τα πλαίσια (data frames) που υπάρχουν στο περιβάλλον εργασίας μας.
  • 15.
    14 Από το μενούpackages ο χρήστης μπορεί να φορτώσει βιβλιοθήκες που ειδή υπάρχουν(load packages), να κατεβάσει και να εγκαταστήσει βιβλιοθήκες από πρότυπα CRAN(install package(s)),να εγκαταστήσει από zip αρχεία μέσα από τον σκληρό του δίσκο (install package(s) from local zip files) και να τις ενημερώσει με πιο πρόσφατες εκδοχές τους. Τέλος ο χρήστης μπορεί να επιλέξει από πιο μέρος του κόσμου θα κατεβάσει μέσω των προτύπων CRAN τις βιβλιοθήκες(set CRAN mirror) και να επιλέξει ,περά από το CRAN, από ποιόν διανομέα θέλει να τις κατεβάσει(set repositories).
  • 16.
    15 Με το μενούwindows μπορεί κάποιος να μετακινηθεί μεταξύ των παραθύρων των οποίων χρησιμοποίει εκείνη την στιγμή. Επίσης μπορεί να τα τοποθετήσει όπως επιθυμεί είτε κάθετα(Tile Vertically ) είτε οριζόντια( Tile Horizontally).
  • 17.
    16 Από το μενούHelp ο χρήστης μπορεί να βοηθήσει για όλες τις ιδιότητες του πακέτου. Πιο αναλυτικά:  Στο Console υπάρχουν πληροφορίες για την βασική οθόνη του προγράμματος R.  Στα FAQ on R,FAQ on R for Windows υπάρχουν απαντήσεις σε ερωτήσεις που γίνονται συχνά για την R.  Στο Manuals (in PDF) έχουμε το βασικό εγχειρίδιο χρήσης της R σε PDf.  Στο R functions(text) έχουμε πληροφορίες για τις ήδη υπάρχουσες εντολές της R.  Με το Html help μεταφερόμαστε σε έναν διαδικτυακό τόπο όπου μας παρέχει πληροφορίες για το πρόγραμμα μας.  Από το Search help μπορούμε να ψάξουμε όποιο αρχείο επιθυμούμε να βρούμε .  Στο Search.r-project.org μπορούμε να αναζητήσουμε όποιον σύνδεσμο στο διαδίκτυο θέλουμε.  Από το Apropos μπορούμε να αναζητήσουμε εντολές που είναι ήδη φορτωμένες στην R.  Από το R project home page μεταφερόμαστε στην ιστοσελίδα της R.  Από το CRAN home page μεταφερόμαστε στην ιστοσελίδα της CRAN.  About μας παρέχει πληροφορίες για τα δικαιώματα και την τρέχον έκδοση του πακέτου μας.
  • 18.
    17 1.2.3 Εισαγωγή Δεδομένωνστο Πρόγραμμα Το R όντας ένα πρόγραμμα με πολλές δυνατότητες σου παρέχει την δυνατότητα να του φορτώσεις δεδομένα από πολλούς διαφορετικούς τύπους αρχείων. Με την χρήση διαφορετικών βασικών εντολών μπορούμε να εισάγουμε δεδομένα από τους εξής τύπους αρχείων: Excel,Minitab,SPSS,Table,CSV, Stata, systat . Πιο αναλυτικά, αρκετά συχνά τα δεδομένα μας είναι σε μορφή Excel. Για να τα εισάγου στο R χρησιμοποιούμε την εντολή data<-read.xls(“data.xls”), όπου με το “data<-” εισάγουμε την τιμή μας στο αντικείμενο data. Επίσης πολύ σημαντικό είναι το ότι άμα δεν το αρχείο μας δεν βρίσκεται στον ίδιο φάκελο με το πρόγραμμα μας τότε μέσα στην παρένθεση θα πρέπει να γράψουμε το μονοπάτι της ακριβής τοποθεσίας του αρχείου μας .Για παράδειγμα αν τα
  • 19.
    18 δεδομένα μας είναιστο σκληρό δίσκο C στον φάκελο παράδειγμα τότε η εντολή που θα πρέπει να γράψουμε θα είναι η εξής data<-read.xls ("C:παράδειγμαdata.xlsx"). Εάν τα δεδομένα μας είναι σε μορφή Minitab ο τρόπος διαβάσματος του αρχείου θα είναι ο ίδιος με μια μικρή διαφορά. Θα γράψουμε data<- read.mtp(“data.mtp”) και σε περίπτωση πουτο αρχείο μας είναι σε διαφορετικό φάκελο θα πράξουμε με τον ίδιο τρόπο .Χρησιμοποιώντας το προηγούμενο παράδειγμα θα έχω : data<-read.mtp("C:παράδειγμαdata.mtp") Με τον ίδιο τρόπο περνάμε τα δεδομένα στο πρόγραμμα μας με την μόνη διαφορά τα τελειώματα τα όποια θα αντιστοιχούν στον τύπο του αρχείου που είναι αποθηκευμένα. Αν είναι αποθηκευμένα σε αρχείο SPSS τότε θα έχω data<- read.spss(“data.spss”),αν είναι σε αρχείο table ή csv ή Stata ή systat θα έχω data<-read.table(“data.txt”) ,data<- read.csv(“data.csv”), data<- read.dta(“data.dta”) και data<- read.systat(“data.dta”)αντίστοιχα. Τέλος, στην συγκεκριμένη εργασία θα σας δείξουμε πώς εισάγουμε τα δεδομένα μας χωρίς να τα διαβάσουμε από κάποιο άλλο αρχείο( 1.2.4Αποθήκευση και επανάκτηση δεδομένων Μια άλλη δυνατότητα που μας προσφέρει το R είναι η αποθήκευση των αντικειμένων. Για την αποθήκευση τους χρησιμοποιούμε την εντολή save(data, file=”data.Rdata”, ascii=TRUE) όπου το data είναι το όνομα του αρχείου μας και οπου το data.Rdata είναι το όνομα του φάκελου που θα αποθηκευτεί.H παράμετρος “ascii=TRUE” είναι προαιρετική στην περίπτωση που θέλουμε να χρησιμοποιήσουμε το αποθηκευμένο αντικείμενο και σε αλλά στατιστικά πακέτα. 1.2.5 Συχνά προβλήματα και αντιμετώπιση τους Τα προβλήματα τα οποία μπορεί να αντιμετωπίσει κάποιος στο πρόγραμμα R δεν είναι πολλά. Οι λύσεις αυτών των προβλημάτων βρίσκονται σχετικά
  • 20.
    19 εύκολα, κάτι πουκάνει το πρόγραμμα ακόμα πιο αξιόπιστο και λειτουργικό. Τα πιο συνήθη λάθη-προβληματα που μπορεί να αντιμετωπίσει κάποιος είναι αυτά της ορθογραφίας. Το πρόγραμμαR είναι ευαίσθητο σε κεφαλαία και μικρά γράμματα και όπως γίνεται αντιληπτό καμία εντολή δεν θα πραγματοποιηθεί αν δεν έχει διατυπωθεί με τον σωστό τρόπο. Ακόμα πιθανό είναι να έχει δοθεί στο πρόγραμμα κάποια εντολή αλλά με κάποιο λάθος γράμμα η συμβολισμό. Στις δύο αυτές περιπτώσεις το πρόγραμμα βγάζει ένα μήνυμα λάθους (error) βοηθώντας έτσι τον χρήστη να καταλάβει ποίο ακριβώς είναι το πρόβλημα. Παρ’ όλα αυτά, τα λάθη λογικής είναι αυτά τα οπoία δυσκολεύουν περισσότεροαπό αυτά της ορθογραφίας . Συχνά στο πρόγραμμα γίνεται χρήση εντολών οι οποίες μπορεί να είναι σωστές αλλά να μας δίνουν διαφορετικό αποτέλεσμα από αυτό που θέλουμε ή από αυτό που περιμέναμε να δούμε. Τα λάθη λογικής είναι συχνό φαινόμενο στις γλώσσες προγραμματισμού και το R δεν αποτελεί εξαίρεση. Ο χρήστης θα πρέπει να είναι ιδιαίτερα προσεκτικός ώστε να έχει το επιθυμητό αποτέλεσμα. Τέλος, υπάρχουνκαι τα ανθρώπιναλάθη όπως η λάθος καταχώριση αρχείων ,η ονομασία εvός αρχείου με το ίδιο όνομα με ενός άλλου ή η χρησιμοποίηση λάθος βιβλιοθήκης(package).
  • 21.
    20 1.3Τελεστές 1.3.1 Τελεστές Εκχώρησηςκαι Σύγκρισης Με τους Τελεστές εκχώρησης όπως μας προϊδεάζει και η λέξη έχουμε την δυνατότητα να δώσουμε τιμές σε αντικείμενα και μεταβλητές .Οι Τελεστές σύγκρισης μας βοηθούν στο να συγκρίνουμε δυοτιμές. Αυτοί οι Τελεστές είναι οι πιο κάτω. Τελεστής Ιδιότητα <- Το αριστερό μέρος της σχέσης μας παίρνει την τιμή -> Το δεξί μέρος της σχέσης μας παίρνει την τιμή < Μεγαλύτερο > Μικρότερο <= Μικρότερο ή ίσο >= Μεγαλύτερο ή ίσο != Όχι ίσο == Ίσο 1.3.2 Αριθμητικοί Τελεστές Με αυτούς τους Τελεστές μπορούμε να εκτελέσουμε τις βασικές αριθμητικές πράξεις- λειτουργιές , δηλαδή, πρόσθεση ,αφαίρεση, πολλαπλασιασμός όπως και να υψώσουμε έναν αριθμό σε δύναμη .Πιο αναλυτικά: Σύμβολα Πράξη + Πρόσθεση - Αφαίρεση * Πολλαπλασιασμός / Διαίρεση ^ Ύψωση σε δύναμη %/% Ακέραια Διαίρεση %% Υπόλοιπο Διαίρεσης
  • 22.
    21 1.4 Βασικές ΑριθμητικέςΣυναρτήσεις της R Συνάρτηση Πράξη sqrt() Τετραγωνική ρίζα abs() Απόλυτη τιμή log() Λογάριθμος cos() Συνημίτονο sin() Ημίτονο tan() Eφαπτoμένη acos() Τόξο συνημίτονου asin() Τόξο ημιτόνου atan() Τόξο εφαπτομένης gamma() Συνάρτηση Γάμμα lgamma() Λογάριθμος της συνάρτησης Γάμμα beta() Συνάρτηση Βήτα floor() Προηγούμενος ακέραιος ceiling() Επόμενος ακέραιος factorial() Παραγοντικό choose() Συνδυασμοί lchoose() Λογάριθμος συνδυασμών exp() Εκθετική Συνάρτηση
  • 23.
  • 24.
    23 2.1 Εύρεση Μέσου,Διάμεσου και επικρατούσας τιμής Στο συγκεκριμένο παράδειγμα θα ασχοληθούμε με την εύρεση Μέσου ,Διάμεσου και επικρατούσας τιμής ταχυτήτων διερχόμενων αυτοκίνητων. Όπως αναφέραμε και στο πρώτο κεφάλαιο με την εντολή read.csv εισάγουμε τα δεδομένα μας. Με το “kef4<-“ εισάγουμε την τιμή μας στο αντικείμενο kef4,κάτι το οποίο θα μας φανεί πολύ χρήσιμο στην συνέχεια για την αποφυγή λαθών. Τα αρχεία CSV χωρίζονται μεταξύ τους με κόμμα και οι περισσότερες ασκήσεις έχουν και τίτλους. Για παράδειγμα όπως θα δούμε σε αυτήν την άσκηση έχουμε τον τίτλο Speeds.Γι αυτό τον λόγο θα πρέπει στην εισαγωγή των δεδομένων μας να το επισημάνουμε με κάποιους παραμέτρους . Πιο αναλυτικά, για τον λόγο που τα δεδομένα μας χωρίζονται με κόμμα θα πρέπει να βάλουμε την παράμετρο <<sep=”,”>>.Το “sep” βγαίνει από την αγγλική λέξη separated που σημαίνει χωρίζονται το οποίο το βάζουμε να ισούται με το κόμμα. Με την παράμετρο <<header=T>>,όπου “T” βγαίνει από την αγγλική λέξη TRUE που σημαίνει αλήθεια και “header” σημαίνει Τίτλος, ορίζουμε ότι στα δεδομένα μας υπάρχει τίτλος για να είναι σε θέση να τον διαβάσει. Επίσης ,θα πρέπει να δηλώσουμε την ακριβή τοποθεσία του αρχείου που θέλουμε να εισάγουμε. Τέλος, με την εντολή str και στην περίπτωση αυτής της άσκησης str(kef4) βλέπουμε τα δεδομένα που έχουμε εισάγει. Για να βρούμε τον μέσο χρησιμοποιούμε την εντολή “mean” που βγαίνει από την αγγλική λέξη mean και σημαίνει “μέσος”. Στην συνέχεια, ανοίγουμε παρένθεση και βάζουμε το όνομα του αντικειμένου που του εισάγαμε την τιμή κατά το διάβασμα”kef4”. Μετέπειτα χρησιμοποιούμε το σύμβολο “$”και μετά εισάγουμε το όνομα της μεταβλητής που μας ενδιαφέρει. Στην περίπτωση της
  • 25.
    24 άσκησης μας “Speeds”.Τοαποτέλεσμα που εμφανίζεται στην οθόνη [1]3290833 είναι ο μέσος των 120 παρατηρήσεων της άσκησης μας. Για να βρούμε την διάμεσο χρησιμοποιούμε την εντολή “median” που βγαίνει από την αγγλική λέξη median και σημαίνει “διάμεσος”. Στην συνέχεια, ανοίγουμε παρένθεση και βάζουμε το όνομα του αντικειμένου που του εισάγαμε την τιμή κατά το διάβασμα”kef4”. Μετέπειτα χρησιμοποιούμε το σύμβολο “$”και μετά εισάγουμε το όνομα της μεταβλητής που μας ενδιαφέρει. Στην περίπτωση της άσκησης μας “Speeds”.Το αποτέλεσμα που εμφανίζεται στην οθόνη [1]32 είναι η διάμεσος των 120 παρατηρήσεων της άσκησης μας. Για την επικρατούσα τιμή χρησιμοποιώ την εντολή <<table>> ,αφού πρώτα την εισάγουμε ένα νέο αντικείμενο που θα έχει ένα όνομα που θα τα έχουμε ορίσει εμείς, στην περίπτωση μας “ep.timh”. Μετά ανοίγουμε παρένθεση και γράφουμε την εντολή <<as.vector>> και μέσα σε μια καινούρια παρένθεση το πρώτο αντικείμενο που είχαμε δηλώσει κατά το διάβασμα “kef4”.Tέλος κλείνουμε τις παρενθέσεις και πατάμε “enter”.Τέλος ,γράφουμε το όνομα του νέου μας αντικειμένου και μας εμφανίζει το από κάτω πίνακα.
  • 26.
    25 Στον πίνακα παρατηρούμεότι έχουμε δυο σειρές. Στην πάνω σειρά, εμφανίζονται οι ταχύτητες των διερχομένων αυτοκίνητων που έχουμε στα δεδομένα μας. Στην δεύτερη,βλέπουμε κάποιους αριθμούς ,στο συγκεκριμένο παράδειγμα οι τιμές τους κυμαίνονται από1 ως και 8. Αυτές οι τιμές μας σηματοδοτούνπόσες φορέςη κάθε ταχύτητα έχει εμφανιστεί. Για παράδειγμα η ταχύτητα εξήντα 60 έχει εμφανιστεί μόνο μια (1) φορά, ενώ η εξήντα οκτώ(68) έχει εμφανιστεί δυο(2).Ηταχύτητα εκείνη που έχει εμφανιστεί τις περισσότερες φορές ,είναι και η επικρατούσα τιμή. Μιλώντας με τις τιμές της άσκησης, έχουμε δύο επικρατούσεςτιμές, την ενενήντα οκτώ(98)και την εκατόν δυο(102) οι οποίες παρουσιάστηκαν οκτώ φορές η κάθε μια. 2.2 Εύρεση τυπικής απόκλισης και διασποράς Στο συγκεκριμένο παράδειγμα θα ασχοληθούμε με την εύρεση της τυπικής απόκλισης και της διασποράς του αριθμού των αφίξεων των πελατών στα ταμεία του καταστήματος . Αρχικά, καταχωρούμετα δεδομένα μας όπως γνωρίζουμε και χρησιμοποιούμε την εντολή <<str>>για να δούμε τα δεδομένα μας. Για να βρούμε την τυπική απόκλιση χρησιμοποιούμε την εντολή “ sd “που βγαίνει από τις αγγλικές λέξεις standart deviation και σημαίνει “τυπική απόκλιση”. Στην συνέχεια, ανοίγουμε παρένθεση και βάζουμε το όνομα του αντικειμένου που του εισάγαμε την τιμή κατά το διάβασμα”kef4”. Μετά χρησιμοποιούμε το σύμβολο “$”και στην συνέχεια εισάγουμε το όνομα της μεταβλητής που μας ενδιαφέρει. Στην περίπτωση της άσκησης μας “Arrivals”.Το αποτέλεσμα που εμφανίζεται στην οθόνη [1]1500639 είναι η τυπική απόκλιση των 150 παρατηρήσεων της άσκησης μας.
  • 27.
    26 Για να βρούμετην διασπορά χρησιμοποιούμε την εντολή “var”που βγαίνει από την αγγλική λέξη variance και σημαίνει “διασπορά”. Στην συνέχεια, ανοίγουμε παρένθεση και βάζουμε το όνομα του αντικειμένου που του εισάγαμε την τιμή κατά το διάβασμα”kef4”. Μετά χρησιμοποιούμε το σύμβολο “$”και στην συνέχεια εισάγουμε το όνομα της μεταβλητής που μας ενδιαφέρει. Στην περίπτωση της άσκησης μας “Arrivals”.Το αποτέλεσμα που εμφανίζεται στην οθόνη [1]2251918 είναι η διασπορά των150 παρατηρήσεωντης άσκησης μας. 2.3 Εύρεση Τεταρτημόριων Στο επόμενο παράδειγμα εξετάζουμε τουςχρόνους δέσμευσης των τραπεζιών ,μιας καφετέριας, διακοσίων ομάδων πελατών σε ένα εστιατόριο Αρχικά, καταχωρούμετα δεδομένα μας όπως γνωρίζουμε και χρησιμοποιούμε την εντολή <<str>> για να τα δούμε.
  • 28.
    27 Για να βρούμετα τεταρτημόρια χρησιμοποιούμε την εντολή “quantile” που βγαίνει από την αγγλική λέξη quartile και σημαίνει “τεταρτημόριο”. Στην συνέχεια, ανοίγουμε παρένθεση και βάζουμε το όνομα του αντικειμένου που του εισάγαμε την τιμή κατά το διάβασμα”kef4”. Μετά χρησιμοποιούμε το σύμβολο “$”και στην συνέχεια εισάγουμε το όνομα της μεταβλητής που μας ενδιαφέρει. Στην περίπτωση της άσκησης μας “Times”.Το αποτέλεσμα που εμφανίζεται στην οθόνη μας είναι ο χρόνος δέσμευσης των τραπέζιων της καφετέριας ,με βάση τα τεταρτημόρια, των 200 πελατών μας. Αναλύοντας το αποτέλεσμα της εντολής quantile(kef4$Times)βλέπουμε ότι εμφανιστήκαν το πρώτο ,το δεύτερο, το τρίτο και τέταρτο τεταρτημόριο. Βλέπουμε πως το πρώτο έχει ελάχιστη τιμή το 21(0% )και μέγιστη 26(25%). Εν συνεχεία ,το δεύτεροτεταρτημόριο έχει ελάχιστη τιμή το 26(25%),δηλαδή την μεγίστη του προηγούμενου και μεγίστη το 28.5(50%). Οι τιμές του τρίτου κυμαίνονται από το 28,5(50%) μέχρι και το 32(75%). Τέλος, το τέταρτο τεταρτημόριο έχει τιμές από το 32(75%) μέχρι και το 55(100%). Αυτό που παρατηρούμε είναι ότι το 50% των πελατών δεσμεύει ένα τραπέζι από 32 έως και 55 λεπτά. Επίσης, μια άλλη παρατήρηση που μπορούμε να κάνουμεείναι ότι μεταξύ του τρίτου και τέταρτου η διαφορά είναι πολύ μεγάλη σε αντίθεση με την διαφορά των άλλων δυο τεταρτημορίων.
  • 29.
    28 2.4 Εύρεση συχνοτήτων,σχετικών συχνοτήτων ,δημιουργία πίτας και ιστογράμματος Στο συγκεκριμένο παράδειγμα θα ασχοληθούμε με την εύρεση συχνοτήτων, σχετικών συχνοτήτων αλλά και με την δημιουργία ιστογράμματος και δημιουργία πίτας. Αρχικά, περνάμε τα δεδομένα μας. Επειδή, το αρχείο μας είναι csv ,όπως είχαμε πει και στο προηγούμενο κεφάλαιο θα γράψουμε read.csv και το μονοπάτι που βρίσκεται το αρχείο μας μέσα στην παρένθεση. Στην συνέχεια, με την εντολή str βλέπουμε τα δεδομένατα οποία εισάγαμε με την προηγούμενο διάβασμα μας. Η δυνατότητα αλλαγής ονομάτων είναι σημαντική γιατί μας δίνει την δυνατότητα καλύτερης κατανόησης της άσκησης ,αποφυγήςσημαντικών λαθών και είναι και οπτικά πιο όμορφη. Για να μπορέσουμε να αλλάξουμε το όνομα που θα φαίνεται στα διαγράμματα μας θα πρέπει ,πρώτα, να δηλώσουμε την στήλη στην οποία θέλουμε να αλλάξουμε τα ονόματα των δεδομένων της ως χαρακτήρα. Αυτό το κάνουμε με την εντολή x$Brand<-as.character(x$Brand). Εν συνεχεία, με την εντολή x$Brand[x$Brand == “1”] <-“bud light” το πρόγραμμα αυτόματα ψάχνει στην στήλη Brand και όποιος χαρακτήρας είναι ίσος με το ένα τον άσσο του δίνει το όνομα bud light(για το συγκεκριμένο παράδειγμα). Με τον ίδιο τρόπο, αλλάζοντας όμωςκάθε φορά το όνομα που θα πρέπει να βρει το πρόγραμμα και το νέο που θα πάρει την θέση του μπορούμε να αλλάξουμε τα ονόματα (όπως βλέπουμε και ποιο κάτω).
  • 30.
    29 2.4.1Εύρεση Συχνοτήτων καιΣχετικών Συχνοτήτων Η εντολή attach() είναι μια πολύ απλή εντολή αλλά στην ουσία πάρα πολύ χρήσιμη. Με αυτήν μπορούμε να “μπούμε”μέσα στον αρχείο x και να κάνουμε όποια ενέργεια θέλουμε χωρίς να χρειαστεί να το ξαναγράψουμε (θα την δούμε πιο αναλυτικά και στο παράδειγμα 2.6) Με το table() το R μας βγάζει τον πίνακα των συχνοτήτων. Με την αλλαγή που κάναμε πριν στα ονόματα ο πίνακας εμφανίζεται όπως τον βλέπουμε από κάτω, βοηθώνταςμας έτσι να καταλάβουμε ακριβώςσε ποιο τύπο μπύρας ανήκουν οι τιμές. Παρατηρούμεότι οι περισσότεροι τελειόφοιτοι προτιμούντην μπύρα bud light, δεύτερηκαι τρίτη επιλογή του είναι η coors light και miller light αντίστοιχα ενώ στο τέλος βρίσκεται η Michelob light.
  • 31.
    30 Για να εμφανίσουμετον πίνακα των σχετικών συχνοτήτωνπληκτρολογούμε την εντολή prop.table(s.suxnothtwn). Πριν από αυτό όμως θα πρέπει για δική μας διευκόλυνση να δώσουμε σε ένα όνομα της δικής μας επιλογής( στο συγκεκριμένο παράδειγμα s.suxnothtwn) την τιμή από τη δημιουργία του πίνακα συχνοτήτων, δηλαδή, table(Brand). Στην περίπτωση που θέλουμε τον πίνακα σχετικών συχνοτήτων μας πολλαπλασιασμένο επί τοις %,δεν μένει παρά να γράψουμε την ίδια εντολή με την προηγούμενη αλλά πολλαπλασιασμένη με το 100. Δηλαδή, prop.table(s.suxnothtwn)*100
  • 32.
    31 2.4.2Δημιουργία Πίτας καιΙστογράμματος Για να δημιουργήσουμε μια Πίτα η εντολή που θα χρειαστεί κάποιος είναι η pie(). Μέσα στην παρένθεση αρχικά μπαίνει το όνομα για τις τιμές του οποίου θέλουμε να δημιουργήσουμε την πίτα(στο παράδειγμα μας piechart, μιας και το έχουμε ορίσει με αυτό το όνομα δύο εντολές πιο πάνω). Μετά δηλώνουμε τα ονόματα που θα έχει μέσα η πίτα μας . Εδώ , έχουμε ορίσει με το όνομα lbls τις τιμές και τα ονόματα που θα έχει στην προηγούμενη εντολή . Τέλος, είναι η περιγραφή για την πίτα που φτιάχνουμε.Η εντολή για τη δημιουργία μια τέτοιας πίτας, όπως το βλέπουμε και παρακάτω, είναι pie(piechart, labels=lbls, main= “Pie chart of Speciesn(with sample sizes)”).
  • 33.
    32 Το κυκλικό διάγραμμαή πίτα, απεικονίζει ποσοστά. Όπως μπορούμε να δούμε περίπου το ένα τρίτο των τελειοφοίτων προτιμούν την μπύρα Bud Light με ποσοστό 31.6%. Ενώ ακολουθούν με ποσοστό 21.8% και 20.7% οι μπύρες Coors και Miller αντίστοιχα.
  • 34.
    33 Στην περίπτωση πουκάποιος θέλει να δημιουργήσει ένα κυκλικό διάγραμμα αλλά σε τρισδιάστατη μορφή θα πρέπει για αρχή να κατεβάσει και να εγκαταστήσει την βιβλιοθήκη (package) με την ονομασία plotrix, έτσι ώστε να μπορέσει το πρόγραμμα να εμφανίσει το διάγραμμα με την μορφή που το θέλουμε. Αν δεν φορτωθεί η συγκεκριμένη βιβλιοθήκη ,το R, θα βγάλει μήνυμα λάθους. Η εντολή που θα χρειαστούμε για το τρισδιάστατο κυκλικό διάγραμμα είναι pie3D(). Μέσα στην παρένθεση όπωςκαι πριν τοποθετούμε το όνομα για του οποίου τις τιμές θέλουμε να δημιουργήσουμε τη πίτα, τα ονόματα που θα έχει το διάγραμμα. Η μόνη διαφορά είναι ότι του ορίζουμε το ύψος που θέλουμε να έχει το διάγραμμα μας από το explode(στο συγκεκριμένο παράδειγμα explode=0.1)
  • 35.
    34 Για να δημιουργήσουμεένα ραβδόγραμμα δεν μένει παρά να γράψουμε την εντολή barplot(), όπου μέσα στην παρένθεση μπαίνει το όνομα για του οποίου τις τιμές θέλουμε να φτιάξουμε το συγκεκριμένο παράδειγμα. Το ραβδόγραμμααναπαριστά τουςαπόλυτουςαριθμούς.Όπως παρατηρούμε οι περισσότεροι τελειόφοιτοι προτιμούν την μπύρα Bud και ακολουθούνοι μπύρες Coors και Miller, ενώ τελευταία επιλογή τους θα ήταν η μπύρα Michelob. Στην περίπτωση που κάποιοςθέλει να δημιουργήσει ένα ραβδόγραμμα αλλά με τους ράβδους να είναι οριζόντια, τότε, το μόνο που πρέπει να κάνει είναι να γράψει την ίδια εντολή με πριν, με την μόνη διαφορά ότι θα πρέπει να του ορίσουμε ότι το θέλουμε να είναι σε οριζόντια μορφή. Αυτό το καταφέρνουμε με το horiz= T. Το horiz βγαίνει από την αγγλική λέξη horizontally και σημαίνει οριζόντια και το βάζουμε να ισούται με T δηλαδή True(αλήθεια).
  • 36.
    35 2.5 Χρονοσειρά Στο αυτότο παράδειγμα θα μετατρέψουμε μια αριθμητική συνάρτηση σε αντικείμενο χρονοσειράς και θα δημιουργήσουμε ένα ραβδόγραμμα που θα παρουσιάζει τις τιμές της βενζίνης. Αρχικά, καταχωρούμετα δεδομένα μας όπως γνωρίζουμε και χρησιμοποιούμε την εντολή <<str>>για να δούμε τα δεδομένα μας. Με την εντολή ts() θα μετατρέψουμε την αριθμητική συνάρτηση σε ένα αντικείμενο χρονοσειράς. Η μορφή της είναι ts(start=,end=, frequency=) όπου το start και το end είναι η πρώτη και η τελευταία παρατήρηση και frequency
  • 37.
    36 είναι ο αριθμόςτων παρατηρήσεων ανά μονάδα χρόνου( 1=ετησία, 4= τρίμηνη, 12= μηνιαία, κλπ.) Για να δημιουργήσει κανείςένα γραμμικό διάγραμμα μπορεί να το κάνει με την εντολή plot.ts(). Μέσα στην παρένθεση μπαίνει το όνομα που έχουμε θέσει εμείς για τα δεδομέναμας και το όνομα για τις τιμές που θέλουμε να φτιάξουμε το συγκεκριμένο διάγραμμα.
  • 38.
    37 Όπως φαίνεται στοδιάγραμμα, η τιμή της βενζίνης στα τέλη της δεκαετίας του 1970 ανέβηκε στο κοντά στο 1,5 δολάρια,μένοντας σε αυτά τα επίπεδα μέχρι το 2000. Στην συνέχεια, στους μήνες 290 μέχρι 340, άρχισε να παρουσιάζει μεγάλες αυξήσεις φτάνοντας περίπου στα 3 δολάρια. 2.6 Εύρεση Κλάσεων, δημιουργία ιστογράμματος Σε αυτό το παράδειγμα θα δούμε πως μπορούμε να δημιουργήσουμεκλάσεις με το πρόγραμμαR και ιστόγραμμα. Οι τιμές που παρουσιάζονται πιο κάτω είναι μεταξύ εταιριών τηλεφωνίαςοι οποίες ανταγωνίζονται η μία την άλλη.
  • 39.
    38 Αρχικά, καταχωρούμετα δεδομέναμας όπως γνωρίζουμε και χρησιμοποιούμε την εντολή <<str>>για να δούμε τα δεδομένα μας. Με την εντολή “Gefort=cut()”χωρίζουμε το δείγμα μας σε κλάσεις. Σε αυτό το παράδειγμα όπουοι παρατηρήσεις μας είναι 200 και με το τύπο που δείξαμε πιο πάνω στην παράγραφο ,χωρίζουμε το δείγμα μας σε 8 κλάσεις ,γράφοντας “Geffort=cut(kef2$Bills, 8)”. Στην συνέχεια, με την βοήθεια της εντολής “table()” εμφανίζουμε τον πινάκα όπου τα στοιχεία μας πλέον είναι χωρισμένα σε ομάδες.Επίσης , σε αυτόν τον πίνακα βλέπουμε πόσες παρατηρήσεις έχει η κάθε ομάδα. Με την εντολή “attach()” που στα Ελληνικά σημαίνει συνάπτω καταφέρνουμε να μπούμε μέσα στα δεδομένα του “kef2”.Για παράδειγμα, στην προηγούμενη εντολή είχαμε γράψει “Geffort=cut(kef2$Bills, 8)”.Μπορούσαμε να πληκτρολογήσουμε πριν από αυτόν τον τύπο το “attach(kef2)”,όποτε τώρα η εντολή μας θα γραφόταν έτσι: attach(kef2) Geffort=cut(Bills, 8)
  • 40.
    39 Με αυτόν τοντρόπο γλυτώνουμε να γραφούμε το “kef2” ή όποιο άλλο όνομα έχουμε δώσει εμείς στο αντικείμενο μας και μας γλυτώνει πολλές φορές από απρόσεκτα λάθη. Πιο κάτω θα την δούμε την εντολή αυτή στην πράξη. Για να δημιουργήσουμε ένα Ιστόγραμμα πρέπει να χρησιμοποιήσουμε την εντολή “hist(Bills,breaks=bins)”.To “hist” ,βγαίνει από το histogram, δηλαδή, ιστόγραμμα ,με το “Bills” του ορίζουμε για πια μεταβλητή μας θέλουμε να κάνουμε το διάγραμμα αυτό και τέλος με το “break=bins” του θέτουμε τα όρια ώστε να αλλάξει μπάρα στο διάγραμμα. Αυτό το επιτυγχάνουμε με την εντολή “bins=seq(min(Bills),max(Bills)+15,15).To “bins” είναι όνομα που του ορίσαμε εμείς, το “seq” βγαίνει από την αγγλική λέξη “Sequence” που σημαίνει “ακολουθία” και μέσα σε αυτό θέτουμε το ελάχιστο(min),το μέγιστο(max) και την διαφορά που έχουν μεταξύ τους οι κλάσεις.
  • 41.
    40 Το ιστόγραμμα μαςδίνει μια καθαρή εικόνα της κατανομής των λογαριασμών. Οι μισοί περίπου από τους μηνιαίους λογαριασμούς αφορούν τα μικρά ποσά, δηλαδή από 0 ως 30,λίγοι βρίσκονται στις ενδιάμεσες τιμές, από 30 μέχρι και 75 και ένα αρκετά σημαντικόμέρος των λογαριασμών είναι στο ανώτεροδιάστημα των τιμών, από 75 μέχρι το 120. Η εταιρία θα πρέπει να μάθει περισσότερα για τους πελάτες οι οποίοι κάνουν μεγάλους λογαριασμούς. Οι συγκεκριμένοι πελάτες μπορούν να αποτελέσουν στόχο για προσφορές από ανταγωνιστές με πιο ελκυστικές τιμές. Με αυτές τις πληροφορίες θα μπορέσει η εταιρεία να τους συγκρατήσει( τους πελάτες της) αλλά και με τις κατάλληλες προσφορές να προσελκύσει και πελάτες από τους ανταγωνιστές της.
  • 42.
    41 2.6.1 Εύρεση Κλάσεων,δημιουργία ιστογράμματος Εδώ θα δούμε ένα ακόμα παράδειγμα για το πώς μπορούμενα δημιουργήσουμε κλάσεις. ¨Ένας φοιτητήςδιαθέτει κάποια χρήματα και μπορεί να τα διαθέσει σε μία από τις δύο επενδύσεις που έχει στην επιλογή του. Με την βοήθεια του ιστογράμματος θα συγκρίνει τις δύο επιλογές του και θα επιλέξει την καλύτερη γι’ αυτών επένδυση. Για την πρώτη επένδυση: Αρχικά, καταχωρούμετα δεδομένα μας όπως γνωρίζουμε και χρησιμοποιούμε την εντολή <<str>>για να δούμε τα δεδομένα μας. Με την εντολή “Gefort=cut()”χωρίζουμε το δείγμα μας σε κλάσεις. Σε αυτό το παράδειγμα όπουοι παρατηρήσεις μας είναι 50 και με το τύπο που δείξαμε πιο πάνω στην παράγραφο ,χωρίζουμε το δείγμα μας σε 7 κλάσεις ,γράφοντας “Geffort=cut(kef2b$Return.A, 7)”. Στην συνέχεια, με την βοήθεια της εντολής “table()” εμφανίζουμε τον πινάκα όπου τα στοιχεία μας πλέον είναι χωρισμένα σε ομάδες.Επίσης , σε αυτόν τον πίνακα βλέπουμε πόσες παρατηρήσεις έχει η κάθε ομάδα.
  • 43.
    42 Για να δημιουργήσουμεένα Ιστόγραμμα πρέπει να χρησιμοποιήσουμε την εντολή “hist(Return.A,breaks=bins)”.To “hist” ,βγαίνει από το histogram, δηλαδή, ιστόγραμμα,με το “Bills” του ορίζουμε για πια μεταβλητή μας θέλουμε να κάνουμε το διάγραμμα αυτό και τέλος με το “break=bins” του θέτουμε τα όρια ώστε να αλλάξει μπάρα στο διάγραμμα. Αυτό το επιτυγχάνουμε με την εντολή “bins=seq(min(Return.A),max(Return.A)+12.2,12.2).To “bins” είναι όνομα που του ορίσαμε εμείς, το “seq” βγαίνει από την αγγλική λέξη “Sequence” που σημαίνει “ακολουθία” και μέσα σε αυτό θέτουμε το ελάχιστο(min),το μέγιστο(max) και την διαφορά που έχουν μεταξύ τους οι κλάσεις.
  • 44.
    43 Παρατηρούμε ότι ηκορυφή του Ιστογράμματος βρίσκεται στην κλάση με απόδοση από 0 μέχρι 15%. Επίσης, η επένδυση A παρουσιάζει στο αριστερό άκρο τιμές μέχρι και -20 και εμφανίζει να έχει ελαφρά θετική ασυμμετρία. Για την δεύτερη επένδυση: Με τον ίδιο τρόπο καταχωρούμε τα δεδομένα μας και χρησιμοποιούμε την εντολή <<str>>για να δούμε τα δεδομένα μας.
  • 45.
    44 Με την εντολή“Gefort=cut()”χωρίζουμε το δείγμα μας σε κλάσεις. Σε αυτό το παράδειγμα όπουοι παρατηρήσεις μας είναι 50 και με το τύπο που δείξαμε πιο πάνω στην παράγραφο ,χωρίζουμε το δείγμα μας σε 7 κλάσεις ,γράφοντας “Geffort=cut(kef2b$Return.B, 7)”. Στην συνέχεια, με την βοήθεια της εντολής “table()” εμφανίζουμε τον πινάκα όπου τα στοιχεία μας πλέον είναι χωρισμένα σε ομάδες.Επίσης , σε αυτόν τον πίνακα βλέπουμε πόσες παρατηρήσεις έχει η κάθε ομάδα. Για να δημιουργήσουμε ένα Ιστόγραμμα πρέπει να χρησιμοποιήσουμε την εντολή “hist(Return.B,breaks=bins)”.To “hist” ,βγαίνει από το histogram, δηλαδή, ιστόγραμμα,με το “Bills” του ορίζουμε για πια μεταβλητή μας θέλουμε να κάνουμε το διάγραμμα αυτό και τέλος με το “break=bins” του θέτουμε τα όρια ώστε να αλλάξει μπάρα στο διάγραμμα. Αυτό το επιτυγχάνουμε με την εντολή “bins=seq(min(Return.B),max(Return.B)+12.2,12.2).To “bins” είναι όνομα που του ορίσαμε εμείς, το “seq” βγαίνει από την αγγλική λέξη “Sequence” που σημαίνει “ακολουθία” και μέσα σε αυτό θέτουμε το ελάχιστο(min),το μέγιστο(max) και την διαφορά που έχουν μεταξύ τους οι κλάσεις.
  • 46.
    45 Όπως και στοΙστόγραμμα της επένδυσης A έτσι και εδώ η κορυφή του βρίσκεται στην κλάση με απόδοσημεταξύ 0-15%. Στο αριστερό άκρο βλέπαμε ότι παίρνει τιμές μικρότερες από το -30. Παρατηρούμε ότι και η επένδυση B εμφανίζει μια ελαφρά θετική ασυμμετρία με την διαφορά ότι είναι περισσότερο μετατοπισμένο προς τα δεξιά με μόνη εξαίρεση την κλάση στα αριστερά που δείχνει μια πιθανότητα για υψηλές τιμές. Συγκρίνοντας τα δύο Ιστογράμματα συμπεραίνουμε ότι η επένδυση B έχει καλύτερεςαποδόσεις από την A,αλλά με έναν όχι και τόσο ασήμαντο κίνδυνο για υψηλές ζημίες. Ο φοιτητής ,ανάλογα την οικονομική κατάσταση του θα μπορούσε να επιλέξει την καλύτερη επένδυση για αυτόν.
  • 47.
    46 2.7 Ελαχίστων Τετραγώνων Οιτιμές που παρουσιάζονται στο επόμενοπαράδειγμα είναι μια προσπάθεια ενός φοιτητή να κατανοήσει την σχέση ανάμεσα στον βαθμό εξέτασης και τον χρόνο μελέτης ,δέκα συμφοιτητώντου σε ένα συγκεκριμένομάθημα. Αρχικά, καταχωρούμετα δεδομένα μας όπως γνωρίζουμε και χρησιμοποιούμε την εντολή <<str>>για να δούμε τα δεδομένα μας. Με summary() (όπως είδαμε και στο κεφάλαιο 2.4) μας δίνει γρήγορα και εύκολα βασικές αλλά χρήσιμες πληροφορίεςγια την άσκηση μας ,όπως διάμεσο ,μέσο και άλλα. Με την εντολή plot() δημιουργούμε ένα διάγραμμα με το οποίο ελέγχουμε αν η σχέση μας είναι γραμμική.
  • 48.
    47 Για να επιβεβαιώσουμετις υποψίες μας, βρίσκουμε την συσχέτιση μεταξύ του χρόνου μελέτης(Study.time) και βαθμών(Marks),από την εντολή cor().Το cor βγαίνει από την αγγλική λέξη correlation που σημαίνει συσχέτιση. Πριν ξεκινήσουμε για να βρούμε την γραμμή ελαχίστων τετραγώνων θα πρέπει να ορίσουμε ποια μεταβλητή είναι η ανεξάρτητη και ποια η εξαρτημένη. Στο συγκεκριμένο παράδειγμα η ανεξάρτητη είναι ο χρόνος διαβάσματος (Study.time) και η εξαρτημένη είναι οι βαθμοί(Marks) . Επιλέχθηκαν έτσι γιατί ο χρόνος διαβάσματος επιρεάζει τον βαθμό.Οσο περισσότερο ασχοληθεί κάποιος ,τόσο καλύτερο βαθμό θα πάρει.
  • 49.
    48 Η εντολή γιατην εκτέλεση των ελαχίστων τετραγώνων είναι η lm. Η περισπωμένη μας δείχνει την στην ουσία ότι οι βαθμοι (Marks) εξαρτόνται (~)από τον χρόνο διαβάσματος (Study.time). Αφού τρέξουμε την εντολή lm και γράφοντας το όνομα στο οποίο περάσαμε τις τιμές, το πρόγραμμα ,θα μας εμφανίσει ελάχιστες πληροφορίες . Αν θελήσουμε να μάθουμε τι άλλο είναι αποθηκευμένο στην μεταβλητή, με την εντολή attributes(). Με την εντολή fit$c παίρνουμε τις τιμές των α και β στην ευθεία παλινδρόμησηςψ=α+βχ. Συγκεκριμένα βλέπουμε, ότι για το α η τιμη είναι ίση με 5,921746 και για το β είναι ίση με 1,704864.
  • 50.
    49 Για να βρούμετις τιμές των εκτιμημένων σφαλμάτων ή υπολοίπων(residuals) χρησιμοποιούμε την κάτω εντολή.Δημιουργούμεένα καινούριο αντικείμενο το res, το οποίο πληκτρολογώντας το στην συνέχεια μας δίνει τις τιμές που θέλουμε. Εν συνεχεία, με την εντολή plot() δημιουργούμε ένα διάγραμμα για το χρόνο διαβάσματοςκαι τα υπόλοιπα,όπουείναι και οι τιμές που μπαίνουν μέσα στην παρένθεση.
  • 51.
    50 Τα υπόλοιπα(residuals)είναι οικατακόρυφεςαποστάσεις ανάμεσα στις τιμές του δείγματος και στα αντίστειχα σημεία της ευθειας. Στην ουσία είναι οι τιμές της μεταβλητής του σφάλματος και το άθροισμα τους είναι το μέγεθος SSE,δηλαδή Sum of Squares for Error.
  • 52.
    51 Με την προηγούμενηεντολη είδαμε πώς να βρήσκουμε τα υπόλοιπα,όμως υπάρχει και ένας πολύ πιο εύκολος τρόπος. Μπορούμε απλά να γράψουμε την εντολή residuals(). Η τιμή “fit” που βάζυμε μέσα στην παρένθεση , είναι το αντικείμενο που έχουμε δημιουργήσει εμείς για την εκτέλεση των ελαχίστων τετραγώνων.Αυτος ο τρόπος είναι πολύ πιο απλός από τον προηγούμενο και είναι χρήσιμος προς την αποφυγή λαθών. Για να δημιουργήσουμε το διάγραμμα με το χρόνο διαβάσματος (Study.time)και των βαθμών(Marks), όπως γνωρίζουμε και από τα προγουμενά παραδείγματα, χρησιμοποιούμε την εντολή plot(Study.time,Marks).Μετέπειτα για να εμφανίσουμε την γραμμή πάνω στο διάγραμμα πληκτρολογούμε το abline(fit).
  • 53.
    52 Ο συντελεστής διεύθυνσηςβ=1,704864είναι η κλίση της ευθείας, δηλαδή , για κάθε μονάδα που κινούμαστε προς τα δεξιά στον οριζόντιο άξονα, η ευθεία ανεβαίνει κατά 1,704864 μονάδες στον κάθετο άξονα. Με απλά λόγια η κλίση της ευθείας μας δείχνει την αύξηση της Y ανά μονάδα της X. Ο συντελεστής α=5,921746 αντιπροσωπεύει το σημείο τομής της ευθείας με τον άξονα Y.
  • 54.
    53 2.8 Άσκηση ελέγχουμε γνωστό τον έλεγχο και την τυπική απόκλιση Στο επόμενο παράδειγμα θα εξετάσουμε έναν έλεγχο υπόθεσης, όταν ο μέσος και η τυπική απόκλιση είναι γνωστά στοιχεία . Σκοπός μας είναι, γνωρίζοντας αυτά τα δύο στοιχεία, να εξετάσουμε αν υπάρχει διαφορά στο μέσο λογαριασμό μια εταιρείας έναντι του ανταγωνιστή της. Αρχικά εισάγουμε τη τοποθεσία των δεδομένων μας και στη συνέχεια, αν θέλουμε για λόγους ευκολίας το μετονομάζουμε. Σε αυτή την άσκηση θα χρειαστούμε ένα από τα packages και για την ακρίβεια την TeachingDemos. Αφού κάνουμε load και install την συγκεκριμένη βιβλιοθήκη τρέχουμετην εντολή z.test(). Μέσα στις παρενθέσεις εισάγουμε το μέρος απ’ όπου θέλουμε να πάρει μεταβλητές για τον έλεγχο η
  • 55.
    54 εντολή(x$Bills),την υποθετική τυπικήαπόκλιση(sd=3.87), τον υποθετικό μέσο (m=17.09) και στην συνέχεια πατάμε ENTER. Στην οθόνη του χρήστη εμφανίζεται το όνομα του ελέγχου, οι τιμές z,n (που είναι το μέγεθος του δείγματος μας), η τυπική απόκλιση, η τιμή SE mean και η τιμή p. Ακόμα ,βλέπουμε την εναλλακτική υπόθεση, το διάσημα εμπιστοσύνης και τον πραγματικό μέσο του δείγματος μας. Η μηδενική υπόθεση σε αυτή τη περίπτωση απορρίπτεται αν ο μέσος είναι είτε μικρότερος είτε μεγαλύτερος από τον υπάρχοντα,με την περιοχή απόρριψης να είναι z< -z a/2 ή z>z a/2. Με το a=0.05 έχουμε z< -1,96 ή z>1,96( πίνακας τιμών z). Ο έλεγχος z είναι 1.1884 και επειδή δεν είναι ούτε μικρότεροούτε μεγαλύτερο του -1,96 δεν απορρίπτεται η μηδενική υπόθεση. Με τη τιμή της p να είναι στο 0.2347 μπορούμε να πούμε πως δεν υπάρχουναρκετά στατιστικά στοιχεία ώστε να συμπεράνουμεότι ο μέσος λογαριασμός των ανταγωνιστών διαφέρει από αυτόν της εταιρείας που εξετάζουμε.
  • 56.
    55 2.9 Άσκηση ελέγχουμε γνωστό μέσο. 2.9.1 Εισαγωγή δεδομένων χωρίς διάβασμα από αρχείο Το όνομα που θα δώσουμε θα είναι Libres και στην συνέχεια με την Στο επόμενο παράδειγμα θα καταχωρήσουμε τα δεδομένα δίνοντας τους ένα όνομα εντολή c() καταχωρούμε τα στοιχεία μας. Στην συνέχεια, πατώντας το ENTER η μεταβλητή μας έχει δημιουργηθεί με το όνομα Libres και είναι έτοιμη προς επεξεργασία. ……. Εδώ θα εξετάσουμε δείγματα βάρουςεφημερίδωνσε λίβρες που απορρίφθηκαν από 148 νοικοκυριά. Η υπόθεση που θέλουμε να εξετάσουμε είναι αν η μέση εβδομαδιαία απόρριψη εφημερίδων είναι μεγαλύτερη από 2 λίβρες, έτσι ώστε να ανοίξει ένα νέο κέντρο ανακυκλώσεων. Χρησιμοποιώντας την εντολή t.test()παίρνουμε την απάντηση μας βάζοντας μέσα στις παρενθέσεις τα χαρακτηριστικά κάτω από τα οποία θα γίνει ο έλεγχος. Πρώτα μέσα στην παρένθεση βάζουμε το όνομα της μεταβλητής (Libres). Εν συνεχεία ,μετα το κόμμα, βάζουμε το μέσο που θέλουμε να εξετάσουμε(mu=2). Μετέπειτα εισάγουμε αν θέλουμε να είναι μεγαλύτερος αυτός ο μέσος ή μικρότερος(alternative= “greater”) και τη στάθμη σημαντικότηταςτης υπόθεσης(conf.=0.99). Να σημειωθεί, ότι αυτές οι εντολές είναι απαραίτητες καθώς χωρίς αυτές, η εντολή t.test() από μόνη της θα μας έδινε διαφορετικά αποτελέσματα. Αρχικά, βλέπουμε το όνομα του test(one sample t-test). Στη συνέχεια τη βάση δεδομέων που χρησιμοποιήσαμε(data:libres). Έπειτα, βλέπουμε την τιμή του
  • 57.
    56 ελέγχου t(t=2.1526), τουςβαθμούς ελευθερίας (df=147) και την τιμή p(p=0.01644). 2.10 Έλεγχος αναλογίας ενός πληθυσμού Στο επόμενο παράδειγμα θα εξετάσουμε την αναλογία ενός πληθυσμού, με σκοπό να συμπεράνουμε τη νίκη ενός υποψηφίουέναντι του αντιπάλου του. Τα δεδομένα μας είναι ονομαστικά και συμβολίζονται με «1» για το πρώτο υποψήφιο και με «2» για τον δεύτερο.Σκοπός μας είναι να δούμε αν ο υποψήφιος έχει κερδίσει τις εκλογές στη συγκεκριμένη περιοχή. Αρχικά φορτώνουμε τα δεδομένα μας στο πρόγραμμα και στη συνέχεια δίνουμε μια ονομασία (askhsh). Έπειτα και με την βοήθεια της εντολής subset, ονομάζουμε με το όνομα y όλους τους ψήφους της x όπου έχουν τον αριθμό «2». Αυτό γίνεται έτσι ώστε στην συνέχεια με την εντολή str(y) να δούμε πόσοι από το σύνολο των ψηφοφόρων έχουν ψηφίσει το δεύτερουποψήφιο. Το σύνολο των ψηφοφόρων το βλέπουμε με την εντολή str(x).
  • 58.
    57 Έχοντας τον αριθμούςπου χρειαζόμαστε εισάγουμε την εντολή prop.test(407,765,p=0.5,alternative= “greater”,correct=F). Ο αριθμός των ψηφοφόρων στο σύνολοείναι 765 και αυτοί που ψήφισαν το δεύτερο είναι 407. Η εναλλακτική υπόθεση που εξετάζουμε είναι ότι η αναλογία του δεύτερου υποψηφίου πρέπει να είναι μεγαλύτερη του 0.5. Τέλος, με την εντολή correct=F δηλώνουμε ότι δε θέλουμε να γίνει διόρθωση συνέχειας. Το αποτέλεσμα της εντολής prop.test μας δίνει το x^2όπου η ρίζα του είναι ο έλεγχος z. Τον έλεγχο z τον βρίσκουμε δίνοντας την εντολή sqrt() και στην παρένθεση τον αριθμό X-squared(3.1386). Στη συνέχεια βλέπουμε τους βαθμούς ελευθερίας , την τιμή p, την εναλλακτική υπόθεση ,το διάστημα εμπιστοσύνης καθώς και την αναλογία των ψηφοφόρων του δεύτερου υποψήφιου προς το σύνολο των υποψηφίων(0,5320261) Με τη στάθμη σημαντικότητας στο 5% διαπιστώνουμε ο συγκεκριμένος υποψήφιος έχει κερδίσει στην συγκεκριμένη περιοχή.
  • 59.
    58 2.11 Έλεγχος ίσωνδιασπορών Στα επόμενα τρία παραδείγματα θα ελέγξουμε τις διασπορές των δειγμάτων μας , κάνοντας τον έλεγχο ίσων διασπορών. Σκοπός μας είναι να επιλέξουμε το κατάλληλο έλεγχο βάση των αποτελεσμάτων του ελέγχου διασπορών. Στο συγκεκριμένο παράδειγμα εξετάζουμεαν είναι καλύτερογια μια επιχείρηση να αναλαμβάνεται από το παιδί του διευθυντή ή από ξένο διευθυντή. Οι τιμές του δείγματος μας είναι της μορφής ποσοστιαίας μεταβολής. Αρχικά, περνάμε το δείγμα μας στο πρόγραμμα και το ονομάζουμε. Έπειτα η εντολή attach() μας επιτρέπει να μην χρησιμοποιήσουμετο όνομα του δείγματος αλλά μόνο των μεταβλητών. Πρώτος έλεγχος που πρέπει να πραγματοποιήσουμε είναι ο var.test(Offspring,Outsider). Στην οθόνη του χρήστη εμφανίζονται τα αποτελέσματα του ελέγχου και βλέπουμε την τιμή F, την τιμή p, τους βαθμούςελευθερίαςκαι των δύο μεταβλητών,την εναλλακτική υπόθεση και το διάστημα εμπιστοσύνης. Από τον έλεγχο των λόγων των διασπορών βλέπουμε πως η τιμή F=0.4714 είναι εντός της περιοχής απόρριψης(πίνακας τιμών F ). Ακόμα, από τη τιμή της p=0.008095 καταλαβαίνουμε ότι πρέπει να απορρίψουμε τη μηδενική υπόθεση και να χρησιμοποιήσουμε τον έλεγχο των άνισων διασπορών.
  • 60.
    59 Για τον έλεγχοάνισων διαπορών δίνουμε την εντολή t.test(Offspring, Outsider, mu=0), με τον όρο mu=0 να δηλώνει ότι στην εναλλακτική υπόθεση η διαφορά των μέσων δεν είναι ίση του μηδενός. Στην οθόνη μας, εμφανίζεται η τιμή του ελέγχου t,η τιμή της p, οι βαθμοί ελευθερίας , ο όρος της εναλλακτικής υπόθεσης , το διάστημα εμπιστοσύνης καθώς και οι μέσοι των δύο μεταβλητών. Από τα αποτελέσματα συμπεραίνουμε ότι πρέπει να απορριφθεί η μηδενική υπόθεση και να δεχθούμε ότι υπάρχει διαφορά στη μέση απόδοση μιας επιχείρησης όταν την αναλαμβάνει ένα από τα παιδία του ιδρυτή από όταν αναλαμβάνει ένας ξένος. Αυτό το καταλαβαίνουμε από τον έλεγχο t=-3.2196 με την περιοχή απόρριψης 1.982(πίνακας τιμών students t) και τη τιμή p να είναι ίση με 0.001685. Τέλος, συμπεραίνουμε ότι η μέση απόδοση μια επιχείρησης είναι από 0.5136909% έως 2.1581458% υψηλότερη όταν αναλαμβάνει ξένος διευθυντής έναντι κάποιου παιδιού του ιδρυτή. 2.12 Έλεγχος για το λόγο των διασπορών Στο επόμενο παράδειγμα θα πραγματοποιήσουμε έναν έλεγχο για το λόγο των διασπορών δύο μηχανών εμφιάλωσης.
  • 61.
    60 Αρχικά περνάμε ταδεδομένα μας στο πρόγραμμα και στη συνέχεια για τη δική μας ευκολία, ονομάζουμε τα αρχεία. Με την εντολή attach() και μέσα στη παρένθεση το όνομα που δώσαμε στο δείγμα μας, όπως γνωρίζουμε από προηγούμενα παραδείγματα, δεν χρειάζεται να ξαναχρησιμοποιήσουμε το όνομα το οποίο δώσαμε. Επισημαίνεται ότι αυτό γίνεται για τη δική μας ευκολία και δεν αποτελεί ένα υποχρεωτικό βήμα. Στη συνέχεια γίνεται χρησιμοποίηση της εντολής var.test(). Ο έλεγχος var γίνεται για τις διακυμάνσεις και είναι συντομογραφία της λέξης variance όπου είναι η αγγική μετάφραση της λέξης. Ακολούθως, εισάγουμε τις δύο μεταβλητές μας (Machive.1, Machive.2) όπως και τον έλεγχο της εναλλακτικής υπόθεσης (alternative= “greater”). Στην οθόνη του χρήστη εμφανίζεται η τιμή f όπως και η τιμή p.Ακόμα εμφανίζεται το διάστημα εμπιστοσύνης όπως και η εναλλακτική υπόθεση. Από τη τιμή της F συμπεραίνουμε ότι δε μπορούμε να απορρίψουμε τη μηδενική υπόθεση καθώς η περιοχή απόρριψης μας είναι 1.98 (πίνακας F) και ο έλεγχος
  • 62.
    61 μας είναι F=1.3988.Με τα δεδομένα αυτά δεν στηρίζεται η υπόθεση ότι η διασπορά του δεύτερου πληθυσμού είναι μικρότερη από αυτή του πρώτου. 2.13 Έλεγχος ίσων διασπορών Σε αυτό το παράδειγμα εξετάζουμε αν τα αμοιβαία κεφάλαια που προτείνουν οι χρηματιστές έχουν μεγαλύτερη απόδοση από αυτά που είναι άμεσα διαθέσιμα στους επενδυτές. Αρχικά εισάγουμε και ονομάζουμε το δείγμα το οποίο εξετάζουμε. Στη συνέχεια πραγματοποιούμε το έλεγχο διασπορών με την εντολή var.test(). Η τιμή του ελέχου F είναι ίση με 0.865, με την τιμή της p να είναι ίση με 0.57(πίνακας τιμών F) και επειδή ο έλεγχος μας δεν βρίσκεται στη περιοχή απόρριψης, δε μπορούμε να απορρίψουμε τη μηδενική υπόθεση και έτσι θα χρησιμοποιήσουμε το τύπο των ίσων διασπορών.
  • 63.
    62 Στο πρόγραμμα Rο έλεγχος t με ίσες διασπορές δηλώνεται με την εντολή var.equal=T. Έτσι, με αυτό το τρόπο δίνουμε την εντολή ελέγχου t.test(x$Direct,x$Broker,alternative= “greater”,var.equal=T) και στην οθόνη μας εμφανίζεται ο έλεγχος t, η τιμή p, η εναλλακτική υπόθεση ,το διάστημα εμπιστοσύνης και οι μέσοι δύο μεταβλητών. 2.14 Έλεγχος Διασποράς Σκοπός μας είναι να δείξουμε ότι η διασπορά των ποσοτήτων είναι μικρότερη από ένα κυβικό εκατοστό, για ένα μηχάνημα εμφιάλωσης, σε συσκευασίες ενός λίτρου. Σε αυτό το παράδειγμα θα χρειαστεί να ελέγξουμε τη διασπορά του δείγματος μας. Πρώτο βήμα μας θα είναι η εισαγωγή των δεδομένων στο πρόγραμμα και στη συνέχεια η μετονομασία του δείγματος μας.
  • 64.
    63 Στη συνέχεια θαεγκαταστήσουμε το package “TeachingDemos” με σκοπό να χρησιμοποιήσουμε το έλεγχο sigma.test(). Μέσα στις παρενθέσεις θα μπούνε οι παράμετροι μας, οι οποίοι είναι το όνομα της μεταβλητής μας (Fills), η τιμή της διασποράς που εξετάζουμε (sigma=1) ,καθώς και ο όρος της εναλλακτικής υπόθεσης( alternative= “less”). Ο χρήστης στη συνέχεια δέχεται τα αποτελέσματα στην οθόνη όπου είναι το όνομα του ελέγχου(One Sample Chi-Squared test for variance) η βάση δεδομένων πουχρησιμοποιήθηκες (data:Fills), η τιμή του x^2( x-squared=15.2), οι βαθμοί ελευθερίας(df=24)και η τιμή p(p-value=0.08523). Ακόμα φαίνονται η εναλλακτική υπόθεση, το διάστημα εμπιστοσύνης καθώς και η διασπορά της μεταβλητής μας (var of Fills 0.6333333). Από τον έλεγχο μας και με τη περιοχή απόρριψης να είναι στο 13.85, βλέπουμε πως δεν μπορούμε να απορρίψουμε την μηδενική υπόθεση. Με τη τιμή του ελέγχου p να είναι ίση με 0.08523 μπορούμε να πούμε πως δεν υπάρχουν αρκετά στατιστικά στοιχεία που να μας κάνουν να συμπεραίνουμε πως ο ισχυρισμός είναι αληθής. Αυτό βέβαια δε σημαίνει ότι η διασπορά είναι ίση ή μεγαλύτερη του ένα, παρά μόνο μας δίνει το δικαίωμα να στηρίξουμε πως είναι μικρότερη του.
  • 65.
    64 2.15 Έλεγχος υπόθεσης Στηνεπόμενη άσκηση θα εξετάσουμε τα λάθη που κάνουν δύο σαρωτές και ύστερα θα τους συγκρίνουμε με σκοπό να δούμε ποιος από τους δύο είναι καλύτερος. Όπως και στα προηγούμενα παραδείγματα, φορτώνουμε τα δεδομένα μας και στη συνέχεια τα ονομάζουμε. Εν συνεχεία εισάγουμε την εντολή t.test() δηλώνοντας αυτή τη φορά ως εναλλακτική υπόθεση ο μέσος (mu=0) να είναι μικρότερος του μηδενός(alternative= “less”) και η σύγκριση των δεδομένων να γίνει κατά ζεύγη(paired=T ή paired=TRUE). Στην οθόνη του χρήστη εμφανίζεται το όνομα του test(paired t-test), τα δεδομένα που χρησιμοποιήθηκαν(Brand.A και Brand.B), η τιμή του ελέγχου t, η τιμή p, οι βαθμοί ελευθερίας, καθώς και η εναλλακτική υπόθεση και το
  • 66.
    65 διάστημα εμπιστοσύνης.Η τιμήτου ελέγχου είναι t=-3.2248 και η p είναι ίση με 0.007278. Με αυτά τα στοιχεία συμπεραίνουμε ότι ο σαρωτής A είναι καλύτερος από τον B. 2.16 Έλεγχος υπόθεσης Στο επόμενο έλεγχο υπόθεσης εξετάζουμε ποίοι κάτοχοι MBA δέχονται καλύτερες προσφορές στην αγορά εργασίας, συγκρίνοντας αυτούς με οικονομικές σπουδές με εκείνους από σπουδές μάρκετινγκ. Αρχικά, φορτώνουμε στο πρόγραμμα τα δεδομένα μας και ύστερα τους δίνουμε ένα όνομα. Στη συνέχεια πληκτρολογούμε την εντολή var.test() με σκοπό να ελέγξουμε τις διασπορές των μεταβλητών μας. Ο έλεγχος μας έδειξε ότι μπορούμε να χρησιμοποιήσουμε το τύπο των ίσων διασπορών, επομένως, η επόμενη εντολή που θα χρησιμοποιήσουμε θα είναι η t.test() με εναλλακτική υπόθεση,η διαφοράτων μέσων να είναι μεγαλύτερη του μηδενός( alternative= “greater”).
  • 67.
    66 Η περιοχή απόρριψηςείναι ίση με 1,676(πίνακας τιμών student t) και ο έλεγχος μας είναι ίσος με t=1.0422. Επιπρόσθετα, η τιμή pείναι ίση με 0.1513 και έτσι, με τα δεδομένα αυτά, δεν μπορούμε να στηρίξουμε την υπόθεση ότι οι προσφορές που δέχονται οι κάτοχοι MBA με οικονομικές σπουδές είναι υψηλότερες από εκείνες των κατόχων MBA με σπουδές στο τομέα του Marketing. 2.17 Έλεγχος καλής προσαρμογής Ως τελευταίο παράδειγμα θα δείξουμε έναν έλεγχο καλής προσαρμογής. Αυτό που θέλουμε να δείξουμε είναι αν η επιλογή MBA σχετίζεται με την κατεύθυνση των προπτυχιακών σπουδών. Περνώντας τα δεδομένα μας και μετονομάζοντας τα ,μπορούμε έπειτα με την εντολή data.frame() να δούμε τα δεδομένα μας τα οποία είναι ομαδοποιημένα.
  • 68.
    67 Στην συνέχεια πληκτρολογούμετην εντολή chisq:test() και στις παρενθέσεις εισάγουμε τις δύο μεταβλητές(Degree,MBA.Major). Σημαντικό βήμα είναι να έχει χρησιμοποιηθεί εντολή attach() και μέσα στη παρένθεση το όνομα του δείγματος μας. Ειδάλλως μπορούμε να γράψουμε την εντολή με το όνομα του δείγματος και στη συνεχεία το σύμβολο του δολαρίου με τις εκάστοτε μεταβλητές. Στην οθόνη του χρήστη εμφανίζεται το όνομα του ελέγχου που “τρέξαμε” (Pearson’s Chi-squared test), οι μεταβλητές που τέθηκαν προς εξέταση(Degree and MBA.Major) και τα αποτελέσματα του έλεγχου. Βλέπουμε πως η τιμή του x^2(x-squared) είναι ίση με 14.7019 με τη περιοχή απόρριψης μας να είναι ίση με 12.5916( πίνακας τιμών x^2). Τέλος, η τιμή p είναι ίση με 0.02271. Με τον έλεγχο να βρίσκεται μέσα στη περιοχή απόρριψης μπορούμε να συμπεράνουμε ότι υπάρχει σχέση μεταξύ προπτυχιακής κατεύθυνσης σπουδών και κατεύθυνσης MBA.
  • 69.
  • 70.
    69 3.1 Με λίγαλόγια. 3.1.1 Τι είδαμε. Σε αυτήν την έρευνα είδαμε διεξοδικά τις δυνατότητεςτου προγράμματος R,όσο αναφορά τις στατιστικές μελέτες και την έκβαση χρήσιμων συμπερασμάτων. Αναφερθήκαμε στην στατιστική επιστήμη, βλέποντας βασικούς ορισμούς της όπως επίσης και τα είδη της, αναλύοντας τους κυριότερους τομείς της περιγραφικής αλλά και της επαγωγικής στατιστικής. Στην συνέχεια είχαμε μια πρώτη γνωριμία με το πρόγραμμα R βλέποντας το περιβάλλον του προγράμματος, τουςτελεστές του αλλά και τον τρόπο αποθήκευσης, ανάκτησης και εισαγωγής δεδομένων. Με την βοήθεια ασκήσεων καταφέραμε να δείξουμε όλες τις βασικές λειτουργίεςτου R ξεκινώντας από την εισαγωγή αρχείων και δεδομένων στο πρόγραμμα και στην συνέχεια, με τις κατάλληλες εντολές να εξάγουμε τα αποτελέσματα που μας ενδιαφέρουν. Από την περιγραφική στατιστική, με τα μέτρα θέσης και διασποράς, έως και την επαγωγική, με τους ελέγχους υποθέσεων και τα διαστήματα εμπιστοσύνης, καταφέραμε να πραγματοποιήσουμε τον κύριο και αρχικό σκοπό αυτής της έρευνας που δεν ήταν άλλος από το να γνωρίσουμε το πρόγραμμα R ,να το κατανοήσουμε και στην συνέχεια να το αξιολογήσουμε. 3.1.2 Πλεονεκτήματα και Μειονεκτήματα του Προγράμματος. 3.1.2.1 Πλεονεκτήματα Ένα από τα μεγαλύτερα θετικά στοιχεία του προγράμματος είναι τα σχετικά λίγα προβλήματα που μπορεί να συναντήσει ο χρήστης καθώς και η εύκολη επίλυση τους. Με την ανοιχτή κοινότητα R να είναι πάντοτε πρόθυμη να βοηθήσει ,είτε αρχάριους, είτε προχωρημένους χρηστές ,η εκμάθηση και η κατανόηση του R γίνεται με σχετική άνεση. Ακόμα με το ίδιο το πρόγραμμα να δίνει λύσεις , όπου αυτό γίνεται δυνατό ,ο χρήστης μαθαίνει να βρίσκει και να επιλύει προβλήματα παντόςφύσης. Ένα ακόμη σημαντικό πλεονέκτημα είναι το λειτουργεί με βιβλιοθήκες(packages) . Με την χρήση βιβλιοθηκών ο χρήστης μπορεί να χρησιμοποιήσει πληθώρα παραδειγμάτωνπρος επίλυση όπως επίσης και εντολές οι οποίες πιθανόν να τον βοηθήσουν στην λύση των ασκήσεων. Συνεχίζοντας θα πρέπει να τονίσουμε, ότι ακόμα και αν δεν υπάρχει κάποια βιβλιοθήκη έτσι ώστε να βοηθήσει το χρήστη, ο ίδιος μπορεί να τη δημιουργήσει. Το R πέρα από ένα πολυεργαλείο , είναι και μια γλώσσα
  • 71.
    70 προγραμματισμού η οποίαμας δίνει την δυνατότητα να κατασκευάσουμε την εντολή που χρειαζόμαστε. Ως ένα από τα μεγαλύτερα πλεονεκτήματα θα μπορούσαμε ακόμα να αναφέρουμε την λυτή αλλά άκρως κατανοητή παρουσίαση δεδομένων στο περιβάλλον του προγράμματος. Το R εμφανίζει στο χρήστη το απαιτούμενοαποτέλεσμα με όλες τις πληροφορίεςπου μπορεί να ζητήσει ο χρήστης χωρίς να χρειάζεται να ανατρέξει αλλού ή να δώσει παραπάνω εντολές από τις απαιτούμενες. Επιπρόσθετα, το R, δίνει ένα ευρύ φάσμα γραφημάτων, στα οποία γίνεται αντιληπτή και η πιο μικρή λεπτομέρεια και υπάρχει η δυνατότητα να τα προσαρμόσει ο χρήστης στις δικές του ανάγκες και απαιτήσεις. Τέλος, ίσως και το σημαντικότερο πλεονέκτημα, είναι ότι δεν χρειάζεται κάποιο αντίτιμο για την χρησιμοποίηση του. Όντας ένα δωρεάν πρόγραμμα το οποίο μπορεί να χρησιμοποιηθεί από οποιονδήποτε ,το R αποκτά ένα μεγάλο συγκριτικό πλεονέκτημα έναντι των υπολοίπων προγραμμάτων στατιστικής, μαθηματικώνή προγραμματισμού. Ακόμα το ευρέοςεργασιών που μπορεί να καλύψει είναι αναπόφευκταένα θετικό στοιχείο για το συγκεκριμένο πρόγραμμα. Με τη στατιστικών είναι ένα μόνο κομμάτι από την πληθώρα εργασιών, το R ,μπορεί να χρησιμοποιηθεί με μεγάλη ευχέρεια στη μαθηματική επιστήμη, όπως ακόμα και στο προγραμματισμό και στην δημιουργία βάσεων δεδομένων. 1.3.2.2 Μειονεκτήματα Πέρα από τα θετικά στοιχεία παρατηρούμε και μια σειρά από κάποια μειονεκτήματα, τα οποία δεν ξεπερνούν σε αριθμό τα πλεονεκτήματα του. Αρχικά, όντας ένα πρόγραμμα το οποίοδεν διδάσκεται σε αρκετά εκπαιδευτικά ιδρύματα, αντιμετωπίζει ένα μεγάλο πρόβλημα αναγνωσιμότητας. Επιπρόσθετα, μπορεί να προκαλέσει άσχημη πρώτη εντύπωση στους νέους χρήστες. Με το περιβάλλον του προγράμματος να μην θυμίζει σε τίποτα προγράμματα όπως είναι το SPPS ή Excel, η εικόνα που δέχεται ο χρήστης μπορεί να θεωρηθεί ασυνήθιστη και να δημιουργήσει κακή εντύπωση. Ο χρόνος απομνημόνευσης και της σωστής χρήσης του μεγάλου πλήθους εντολών του μπορεί να θεωρηθεί ως κάτι το αρνητικό. Ο χρήσης θα πρέπει να μάθει και να κατανόηση των μεγάλο όγκο εντολών ώστε να έχει τα επιθυμητά αποτελέσματα. Όπως γίνεται αντιληπτό θα πρέπει να κάνει αρκετά λάθη και να περάσει αρκετές ώρες πάνω στο πρόγραμμα μέχρι να φθάσει στο σημείο να εφαρμόζει σωστά τις εντολές. Τέλος, οι ελάχιστες πληροφορίες που υπάρχουν στην Ελληνική γλώσσα,
  • 72.
    71 καθιστούν το Rως ένα μέσο σχεδόν απρόσιτο για όσους δεν μιλούν κάποια ξένη γλώσσα. Αποτέλεσμα αυτού είναι η αργή διάδοση του προγράμματος στη χώρα μας 3.1.3 Σύγκριση με άλλα στατιστικά προγράμματα. Σε σύγκριση με τα υπόλοιπαστατιστικά προγράμματα ,το R,έχει κάνει τεράστια πρόοδο από την μέρα δημιουργίαςτου μέχρι και σήμερα. Η δωρεάν διανομή του σε σύγκριση με πολλά άλλα στατιστικά πακέτα του δίνει ένα δυναμικό πλεονέκτημα. Επίσης σε σύγκριση με τα στατιστικά προγράμματα SPSS , STATA έχει μεγάλη ποικιλία γραφημάτων αλλά σου παρέχει μεγάλη ευκολία στην δημιουργία τους, στην διαχείριση τους και στην μετατροπή τους. Σχετικά με το προγραμματισμό ,το R φαίνεται να προτιμάται σε σχέση με το STATA καθώς είναι πολύ πιο εύκολο να το προγραμματίσεις. Στα περισσότερα προβλήματα στατιστικής ακόμα και αν τα περισσότερα πακέτα μας δίνουν τα στοιχεία και τις εξισώσεις που χρειαζόμαστε,πολλές φορές ο προγραμματισμός είναι απαραίτητος και έτσι το R έχει συγκριτικό πλεονέκτημα. Συγκριτικά με το SPSS, το συγκεκριμένο πρόγραμμα, με το πλεονέκτημα του προγραμματισμού επιτρέπει στο χρήστη να κάνει πιο εξειδικευμένες μελέτες, που είναι πιθανό να μην υπάρχουν,να είναι δύσκολοστο χειρισμό ή να απαιτεί περισσότερο χρόνο και περισσότερα βήματα στην ίδια μελέτη στο SPSS. Επίσης, σε διαφορές ιστοσελίδες με κύριο θέμα την στατιστική, το R δείχνει να έχει μεγάλη απήχηση, με τους νέους ηλικιακά κατά κύριο λόγο να το υποστηρίζουν σε σχέση με κάποια άλλα στατιστικά πακέτα, ισχυριζόμενοι μάλιστα ότι το πρόγραμμα R είναι για εξειδικευμένες στατιστικές μελέτες σε αντίθεση με το SAS,SPSS ή to STATA. Η αλήθεια βέβαια είναι ότι ακόμα και σήμερα τα πακέτα αυτά(SPSS,SAS) θεωρούνται κορυφαία στατιστικά πακέτα αλλά με το πέρασμα του χρόνου η απήχηση τους να μειώνεται. Στον αντίποδα το STATAκαι το R αυξάνουντην δυναμική τουςκαι επακόλουθου αυτού είναι η συνεχής αύξηση των χρηστών αυτών των προγραμμάτων. Συμβολικό αυτής της απήχησης ,για το R, είναι η δημοσίευση από ,μια από τις μεγαλύτερης εφημερίδας των Ηνωμένων Πολιτειών της Αμερικής , την New York Times το 2009 το οποίο δηλώνει πως το πακέτο αυτό κερδίζει την εμπιστοσύνη των στατιστικών αναλυτών ανά τον κόσμο καθώς επίσης και ότι μπορεί στο μέλλον να αποτελέσει μεγάλο ανταγωνιστή των μέχρι τότε μεγάλων στατιστικών
  • 73.
    72 προγραμμάτων. Τέλος, μια έρευνα,του Bob Munchen, μας δείχνει την ανοδική αυτή πορεία και προβλέπει πως μέχρι το 2015 θα έχει έρθει η αρχή του τέλους για τα δύο πρωτοπόρα στατιστικά πακέτα. 3.1.4 Προτάσεις. Ως μια πρώτη πρόταση,ύστερα από την εξαγωγή των συμπερασμάτων μας, θα μπορούσαμενα πούμε την αναγκαιότητα εκμάθησης του προγράμματος σε όλα τα εκπαιδευτικά ιδρύματα της χώρας. Το R, με την μεγάλη γκάμα δυνατοτήτων, είτε στη στατιστική, είτε στα μαθηματικά, είτε στο προγραμματισμό θα ήταν τέλειο εργαλείο δουλειάς για τους φοιτητές γιατί θα τους βοηθούσε να καταλάβουν πολύ πιο εύκολα , πιο εξειδικευμένα προγράμματα ή ακόμα και άλλες γλώσσες προγραμματισμού. Συγκεκριμένα, για τις σχολές με κύριο αντικείμενο τη στατιστική, την οικονομία, τα μαθηματικά και τους ηλεκτρονικούςυπολογιστές, θα πρέπει να θεωρείται απαραίτητο. Το R είναι ένα πρόγραμμα με μηδενικό κόστος για την εκπαίδευση.Επιπρόσθετα, η δημιουργία και η ανάπτυξη μιας Ελληνικής διαδικτυακής κοινότητας του προγράμματος μπορεί να θεωρηθεί αναγκαία. Με αυτό τον τρόποοι Έλληνες χρήστες θα έχουν μεγαλύτερη υποστήριξη και βοήθεια. Τέλος, θα ήταν ένας τρόπος προώθησης του R στην Ελληνική αγορά, με τους πιθανούς χρήστες να βρίσκουν άμεσα λύση στα προβλήματατουςξεπερνώντας έτσι το εμπόδιο μιας ξένης γλώσσας. 3.2 Συμπεράσματα. Αυτό που μπορεί να συμπεράνει κανείς είναι ότι το πρόγραμμα έχει αρκετά πλεονεκτήματα έναντι άλλων στατιστικών πακέτων, αλλά και προβλήματα, που με τον καιρό όμως αντιμετωπίζονται. Το πρόγραμμαR , δείχνει να έχει σύμμαχο τον χρόνο καθώς κερδίζει με τον καιρό την εμπιστοσύνη χιλιάδωνχρηστών ανά τον κόσμο, με αποτέλεσμα να γίνεται ένα από τα πιο διαδεδομένα και αξιόπιστα προγράμματα, όχι μόνο για στατιστικούς, αλλά και για άλλους σκοπούς.
  • 74.
    73 Βλέπουμε, ακόμα πωςοι δυνάμειςτου προγράμματοςξεπερνούνσε μεγάλο βαθμό εκείνες των ανταγωνιστικών προγραμμάτων. Παρ’ όλα αυτά παρατηρούμε και αδυναμίες, όπως είναι η αργή διάδοση του και πιο συγκεκριμένα στην χώρα μας. Ακόμα και σε αυτήν την περίπτωση όμως τα προβλήματα φαίνονται να είναι πολύ λίγα σε σχέση με την δυναμική του, την αξιοπιστία του και γενικότερα, τα θετικά στοιχεία που παρουσιάζει το εν λόγο πρόγραμμα. Κάτι που μας κάνει να πιστεύουμε ότι πολύ σύντομα θα είναι ίσως το πιο επιτυχημένο, αλλά και εξεζητημένο στατιστικό πρόγραμμα.
  • 75.
    74 Πίνακες Τιμές των πιθανοτήτων)()()( zZPzZPzΦ  της τυποποιημένης κανονικής κατανομής )1(0,N για 0z . Για 0z ισχύει )(1)( zΦzΦ  . z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.0 0.50000 0.50399 0.50798 0.51197 0.51595 0.51994 0.52392 0.52790 0.53188 0.53586 0.1 0.53983 0.54380 0.54776 0.55172 0.55567 0.55962 0.56356 0.56749 0.57142 0.57535 0.2 0.57926 0.58317 0.58706 0.59095 0.59483 0.59871 0.60257 0.60642 0.61026 0.61409 0.3 0.61791 0.62172 0.62552 0.62930 0.63307 0.63683 0.64058 0.64431 0.64803 0.65173 0.4 0.65542 0.65910 0.66276 0.66640 0.67003 0.67364 0.67724 0.68082 0.68439 0.68793 0.5 0.69146 0.69497 0.69847 0.70194 0.70540 0.70884 0.71226 0.71566 0.71904 0.72240 0.6 0.72575 0.72907 0.73237 0.73565 0.73891 0.74215 0.74537 0.74857 0.75175 0.75490 0.7 0.75804 0.76115 0.76424 0.76730 0.77035 0.77337 0.77637 0.77935 0.78230 0.78524 0.8 0.78814 0.79103 0.79389 0.79673 0.79955 0.80234 0.80511 0.80785 0.81057 0.81327 0.9 0.81594 0.81859 0.82121 0.82381 0.82639 0.82894 0.83147 0.83398 0.83646 0.83891 1.0 0.84134 0.84375 0.84614 0.84850 0.85083 0.85314 0.85543 0.85769 0.85993 0.86214 1.1 0.86433 0.86650 0.86864 0.87076 0.87286 0.87493 0.87698 0.87900 0.88100 0.88298 1.2 0.88493 0.88686 0.88877 0.89065 0.89251 0.89435 0.89617 0.89796 0.89973 0.90147 1.3 0.90320 0.90490 0.90658 0.90824 0.90988 0.91149 0.91309 0.91466 0.91621 0.91774 1.4 0.91924 0.92073 0.92220 0.92364 0.92507 0.92647 0.92786 0.92922 0.93056 0.93189 1.5 0.93319 0.93448 0.93574 0.93699 0.93822 0.93943 0.94062 0.94179 0.94295 0.94408 1.6 0.94520 0.94630 0.94738 0.94845 0.94950 0.95053 0.95154 0.95254 0.95352 0.95449 1.7 0.95543 0.95637 0.95728 0.95818 0.95907 0.95994 0.96080 0.96164 0.96246 0.96327 1.8 0.96407 0.96485 0.96562 0.96638 0.96712 0.96784 0.96856 0.96926 0.96995 0.97062 1.9 0.97128 0.97193 0.97257 0.97320 0.97381 0.97441 0.97500 0.97558 0.97615 0.97670
  • 76.
    75 2.0 0.97725 0.977780.97831 0.97882 0.97932 0.97982 0.98030 0.98077 0.98124 0.98169 2.1 0.98214 0.98257 0.98300 0.98341 0.98382 0.98422 0.98461 0.98500 0.98537 0.98574 2.2 0.98610 0.98645 0.98679 0.98713 0.98745 0.98778 0.98809 0.98840 0.98870 0.98899 2.3 0.98928 0.98956 0.98983 0.99010 0.99036 0.99061 0.99086 0.99111 0.99134 0.99158 2.4 0.99180 0.99202 0.99224 0.99245 0.99266 0.99286 0.99305 0.99324 0.99343 0.99361 2.5 0.99379 0.99396 0.99413 0.99430 0.99446 0.99461 0.99477 0.99492 0.99506 0.99520 2.6 0.99534 0.99547 0.99560 0.99573 0.99585 0.99598 0.99609 0.99621 0.99632 0.99643 2.7 0.99653 0.99664 0.99674 0.99683 0.99693 0.99702 0.99711 0.99720 0.99728 0.99736 2.8 0.99744 0.99752 0.99760 0.99767 0.99774 0.99781 0.99788 0.99795 0.99801 0.99807 2.9 0.99813 0.99819 0.99825 0.99831 0.99836 0.99841 0.99846 0.99851 0.99856 0.99861 3.0 0.99865 0.99869 0.99874 0.99878 0.99882 0.99886 0.99889 0.99893 0.99897 0.99900 α 0.0005 0.001 0.005 0.01 0.025 0.05 0.10 zα 3.29 3.09 2.576 2.326 1.960 1.645 1.282 Τιμών aνt ; της νt -κατανομής ώστε atPtP aννaνν  )()( ;; ` TT . ν α = 0.10 α = 0.05 α = 0.025 α = 0.01 α = 0.005 1 3.078 6.314 12.706 31.821 63.657 2 1.886 2.920 4.303 6.965 9.925 3 1.638 2.353 3.182 4.541 5.841 4 1.533 2.132 2.776 3.747 4.604
  • 77.
    76 5 1.476 2.0152.571 3.365 4.032 6 1.440 1.943 2.447 3.143 3.707 7 1.415 1.895 2.365 2.998 3.499 8 1.397 1.860 2.306 2.896 3.355 9 1.383 1.833 2.262 2.821 3.250 10 1.372 1.812 2.228 2.764 3.169 11 1.363 1.796 2.201 2.718 3.106 12 1.356 1.782 2.179 2.681 3.055 13 1.350 1.771 2.160 2.650 3.012 14 1.345 1.761 2.145 2.624 2.977 15 1.341 1.753 2.131 2.602 2.947 16 1.337 1.746 2.120 2.583 2.921 17 1.333 1.740 2.110 2.567 2.898 18 1.330 1.734 2.101 2.552 2.878 19 1.328 1.729 2.093 2.539 2.861 20 1.325 1.725 2.086 2.528 2.845 21 1.323 1.721 2.080 2.518 2.831 22 1.321 1.717 2.074 2.508 2.819 23 1.319 1.714 2.069 2.500 2.807 24 1.318 1.711 2.064 2.492 2.797 25 1.316 1.708 2.060 2.485 2.787 26 1.315 1.706 2.056 2.479 2.779 27 1.314 1.703 2.052 2.473 2.771 28 1.313 1.701 2.048 2.467 2.763 29 1.311 1.699 2.045 2.462 2.756  1.282 1.645 1.960 2.326 2.576
  • 78.
    77 Tων τιμών 2 aνχ1; της 2 χ κατανομής για τις οποίες aχXPχXP a-1;νa-1;ν  )()( 22 . ν α = 0.005 α = 0.01 α = 0.025 α = 0.05 α = 0.10 1 0.0000393 0.0001571 0.0009821 0.0039321 0.0157908 2 0.0100251 0.0201007 0.0506356 0.102587 0.210720 3 0.0717212 0.114832 0.215795 0.351846 0.584375 4 0.206990 0.297110 0.484419 0.710721 1.063623 5 0.411740 0.554300 0.831211 1.145476 1.61031 6 0.675727 0.872085 1.237347 1.63539 2.20413 7 0.989265 1.239043 1.68987 2.16735 2.83311 8 1.344419 1.646482 2.17973 2.73264 3.48954 9 1.734926 2.087912 2.70039 3.32511 4.16816 10 2.15585 2.55821 3.24697 3.94030 4.86518 11 2.60321 3.05347 3.81575 4.57481 5.57779 12 3.07382 3.57056 4.40379 5.22603 6.30380 13 3.56503 4.10691 5.00874 5.89186 7.04150 14 4.07468 4.66043 5.62872 6.57063 7.78953 15 4.60094 5.22935 6.26214 7.26094 8.54675 16 5.14224 5.81221 6.90766 7.96164 9.31223 17 5.69724 6.40776 7.56418 8.67176 10.0852 18 6.26481 7.01491 8.23075 9.39046 10.8649 19 6.84398 7.63273 8.90655 10.1170 11.6509
  • 79.
    78 20 7.43386 8.260409.59083 10.8508 12.4426 21 8.03366 8.89720 10.28293 11.5913 13.2396 22 8.64272 9.54249 10.9823 12.3380 14.0415 23 9.26042 10.19567 11.6885 13.0905 14.8479 24 9.88623 10.8564 12.4011 13.8484 15.6587 25 10.5197 11.5240 13.1197 14.6114 16.4734 26 11.1603 12.1981 13.8439 15.3791 17.2919 27 11.8076 12.8786 14.5733 16.1513 18.1138 28 12.4613 13.5648 15.3079 16.9279 18.9392 29 13.1211 14.2565 16.0471 17.7083 19.7677 30 13.7867 14.9535 16.7908 18.4926 20.5992 40 20.7065 22.1643 24.4331 26.5093 29.0505 50 27.9907 29.7067 32.3574 34.7642 37.6886 60 35.5346 37.4848 40.4817 43.1879 46.4589 70 43.2752 45.4418 48.7576 51.7393 55.3290 80 51.1720 53.5400 57.1532 60.3915 64.2778 90 59.1963 61.7541 65.6466 69.1260 73.2912 100 67.3276 70.0648 74.2219 77.9295 82.3581
  • 80.
    79 Tων τιμών 2 a;νχτης 2 χ κατανομής για τις οποίες aχXPχXP a;νa;ν  )()( 22 . ν Α = 0.10 α = 0.05 α = 0.025 α = 0.01 α = 0.005 1 2.70554 3.84146 5.02389 6.63490 7.87944 2 4.60517 5.99147 7.37776 9.21034 10.5966 3 6.25139 7.81473 9.34840 11.3449 12.8381 4 7.77944 9.48773 11.1433 13.2767 14.8602 5 9.23635 11.0705 12.8325 15.0863 16.7496 6 10.6446 12.5916 14.4494 16.8119 18.5476 7 12.0170 14.0671 16.0128 18.4753 20.2777 8 13.3616 15.5073 17.5346 20.0902 21.9550 9 14.6837 16.9190 19.0228 21.6660 23.5893 10 15.9871 18.3070 20.4831 23.2093 25.1882 11 17.2750 19.6751 21,9200 24.7250 26.7569 12 18.5494 21.0261 23.3367 26.2170 28.2995 13 19.8119 22.3621 24.7356 27.6883 29.8194 14 21.0642 23.6848 26.1190 29.1413 31.3193 15 22.3072 24.9958 27.4884 30.5779 32.8013 16 23.5418 26.2962 28.8454 31.9999 34.2672 17 24.7690 27.5871 30.1910 33.4087 35.7185 18 25.9894 28.8693 31.5264 34.8053 37.1564 19 27.2036 30.1435 32.8523 36.1908 38.5822
  • 81.
    80 20 28.4120 31.410434.1696 37.5662 39.9968 21 29.6151 32.6705 35.4789 38.9321 41.4010 22 30.8133 33.9244 36.7807 40.2894 42.7956 23 32.0069 35.1725 38.0757 41.6384 44.1813 24 33.1963 36.4151 39.3641 42.9798 45.5585 25 34.3816 37.6525 40.6465 44.3141 46.9278 26 35.5631 38.8852 41.9232 45.6417 48.2899 27 36.7412 40.1133 43.1944 46.9630 49.6449 28 37.9159 41.3372 44.4607 48.2782 50.9933 29 39.0875 42.5569 45.7222 49.5879 52.3356 30 40.2560 43.7729 46.9792 50.8922 53.6720 40 51.8050 55.7585 59.3417 63.6907 66.7659 50 63.1671 67.5048 71.4202 76.1539 79.4900 60 74.3970 79.0819 83.2976 88.3794 91.9517 70 85.5271 90.5312 95.0231 100.425 104.215 80 96.5782 101.879 106.629 112.329 116.321 90 107.565 113.145 118.136 124.116 128.299 100 118.498 124.342 129.561 135.807 140.169
  • 82.
    81 Τιμές aννF ;,21 της F κατανομής για τις οποίες aFXPFXP aννaνν  )()( ;,;, 2121 )( 01.0a . Για τα α - κάτω ποσοστιαία σημεία aννF 1;, 21 ισχύει η σχέση aννaνν FF ;,;, 1221 11  . 1ν 2ν 1 2 3 4 5 6 7 8 9 1 4052 4999.5 5403 5625 5764 5859 5928 5982 6022 2 98.50 99.00 99.17 99.25 99.30 99.33 99.36 99.37 99.39 3 34.12 30.82 29.46 28.71 28.24 27.91 27.67 27.49 27.35 4 21.20 18.00 16.69 15.98 15.52 15.21 14.98 14.80 14.66 5 16.26 13.27 12.06 11.39 10.97 10.67 10.46 10.29 10.16 6 13.75 10.92 9.78 9.15 8.75 8.47 8.26 8.10 7.98 7 12.25 9.55 8.45 7.85 7.46 7.19 6.99 6.84 6.72 8 11.26 8.65 7.59 7.01 6.63 6.37 6.18 6.03 5.91 9 10.56 8.02 6.99 6.42 6.06 5.80 5.61 5.47 5.35 10 10.04 7.56 6.55 5.99 5.64 5.39 5.20 5.06 4.94 11 9.65 7.21 6.22 5.67 5.32 5.07 4.89 4.74 4.63 12 9.33 6.93 5.95 5.41 5.06 4.82 4.64 4.50 4.39 13 9.07 6.70 5.74 5.21 4.86 4.62 4.44 4.30 4.19 14 8.86 6.51 5.56 5.04 4.69 4.46 4.28 4.14 4.03
  • 83.
    82 15 8.68 6.365.42 4.89 4.56 4.32 4.14 4.00 3.89 16 8.53 6.23 5.29 4.77 4.44 4.20 4.03 3.89 3.78 17 8.40 6.11 5.18 4.67 4.34 4.10 3.93 3.79 3.68 18 8.29 6.01 5.09 4.58 4.25 4.01 3.84 3.71 3.60 19 8.18 5.93 5.01 4.50 4.17 3.94 3.77 3.63 3.52 20 8.10 5.85 4.94 4.43 4.10 3.87 3.70 3.56 3.46 21 8.02 5.78 4.87 4.37 4.04 3.81 3.64 3.51 3.40 22 7.95 5.72 4.82 4.31 3.99 3.76 3.59 3.45 3.35 23 7.88 5.66 4.76 4.26 3.94 3.71 3.54 3.41 3.30 24 7.82 5.61 4.72 4.22 3.90 3.67 3.50 3.36 3.26 25 7.77 5.57 4.68 4.18 3.85 3.63 3.46 3.32 3.22 26 7.72 5.53 4.64 4.14 3.82 3.59 3.42 3.29 3.18 27 7.68 5.49 4.60 4.11 3.78 3.56 3.39 3.26 3.15 28 7.64 5.45 4.57 4.07 3.75 3.53 3.36 3.23 3.12 29 7.60 5.42 4.54 4.04 3.73 3.50 3.33 3.20 3.09 30 7.56 5.39 4.51 4.02 3.70 3.47 3.30 3.17 3.07 40 7.31 5.18 4.31 3.83 3.51 3.29 3.12 2.99 2.89 60 7.08 4.98 4.13 3.65 3.34 3.12 2.95 2.82 2.72 120 6.85 4.79 3.95 3.48 3.17 2.96 2.79 2.66 2.56  6.63 4.61 3.78 3.32 3.02 2.80 2.64 2.51 2.41
  • 84.
    83 Τιμές aννF ;,21 της F κατανομής για τις οποίες aFXPFXP aννaνν  )()( ;,;, 2121 )( 01.0a . Για τα α - κάτω ποσοστιαία σημεία aννF 1;, 21 ισχύει η σχέση aννaνν FF ;,;, 1221 11  . 1ν 2ν 10 12 15 20 24 30 40 60 120  1 6056 6106 6157 6209 6235 6261 6287 6313 6339 6366 2 99.40 99.42 99.43 99.45 99.46 99.47 99.47 99.48 99.49 99.50 3 27.23 27.05 26.87 26.69 26.60 26.50 26.41 26.32 26.22 26.13 4 14.55 14.37 14.20 14.02 13.93 13.84 13.75 13.65 13.56 13.46 5 10.05 9.89 9.72 9.55 9.47 9.38 9.29 9.20 9.11 9.02 6 7.87 7.72 7.56 7.40 7.31 7.23 7.14 7.06 6.97 6.88 7 6.62 6.47 6.31 6.16 6.07 5.99 5.91 5.82 5.74 5.65 8 5.81 5.67 5.52 5.36 5.28 5.20 5.12 5.03 4.95 4.86 9 5.26 5.11 4.96 4.81 4.73 4.65 4.57 4.48 4.40 4.31 10 4.85 4.71 4.56 4.41 4.33 4.25 4.17 4.08 4.00 3.91 11 4.54 4.40 4.25 4.10 4.02 3.94 3.86 3.78 3.69 3.60 12 4.30 4.16 4.01 3.86 3.78 3.70 3.62 3.54 3.45 3.36 13 4.10 3.96 3.82 3.66 3.59 3.51 3.43 3.34 3.25 3.17 14 3.94 3.80 3.66 3.51 3.43 3.35 3.27 3.18 3.09 3.00
  • 85.
    84 15 3.80 3.673.52 3.37 3.29 3.21 3.13 3.05 2.96 2.87 16 3.69 3.55 3.41 3.26 3.18 3.10 3.02 2.93 2.84 2.75 17 3.59 3.46 3.31 3.16 3.08 3.00 2.92 2.83 2.75 2.65 18 3.51 3.37 3.23 3.08 3.00 2.92 2.84 2.75 2.66 2.57 19 3.43 3.30 3.15 3.00 2.92 2.84 2.76 2.67 2.58 2.49 20 3.37 3.23 3.09 2.94 2.86 2.78 2.69 2.61 2.52 2.42 21 3.31 3.17 3.03 2.88 2.80 2.72 2.64 2.55 2.46 2.36 22 3.26 3.12 2.98 2.83 2.75 2.67 2.58 2.50 2.40 2.31 23 3.21 3.07 2.93 2.78 2.70 2.62 2.54 2.45 2.35 2.26 24 3.17 3.03 2.89 2.74 2.66 2.58 2.49 2.40 2.31 2.21 25 3.13 2.99 2.85 2.70 2.62 2.54 2.45 2.36 2.27 2.17 26 3.09 2.96 2.81 2.66 2.58 2.50 2.42 2.33 2.23 2.13 27 3.06 2.93 2.78 2.63 2.55 2.47 2.38 2.29 2.20 2.10 28 3.03 2.90 2.75 2.60 2.52 2.44 2.35 2.26 2.17 2.06 29 3.00 2.87 2.73 2.57 2.49 2.41 2.33 2.23 2.14 2.03 30 2.98 2.84 2.70 2.55 2.47 2.39 2.30 2.21 2.11 2.01 40 2.80 2.66 2.52 2.37 2.29 2.20 2.11 2.02 1.92 1.80 60 2.63 2.50 2.35 2.20 2.12 2.03 1.94 1.84 1.73 1.60 120 2.47 2.34 2.19 2.03 1.95 1.86 1.76 1.66 1.53 1.38  2.32 2.18 2.04 1.88 1.79 1.70 1.59 1.47 1.32 1.00
  • 86.
    85 Τιμές aννF ;,21 της F κατανομής για τις οποίες aFXPFXP aννaνν  )()( ;,;, 2121 )( 05.0a . Για τα α - κάτω ποσοστιαία σημεία aννF 1;, 21 ισχύει η σχέση aννaνν FF ;,;, 1221 11  . 1ν 2ν 1 2 3 4 5 6 7 8 9 1 161.4 199.5 215.7 224.6 230.2 234.0 236.8 238.9 240.5 2 18.51 19.00 19.16 19.25 19.30 19.33 19.35 19.37 19.38 3 10.13 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81 4 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00 5 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 6 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10 7 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68 8 5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44 3.39 9 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.18 10 4.96 4.10 3.71 3.48 3.33 3.22 3.14 3.07 3.02 11 4.84 3.98 3.59 3.36 3.20 3.09 3.01 2.95 2.90 12 4.75 3.89 3.49 3.26 3.11 3.00 2.91 2.85 2.80 13 4.67 3.81 3.41 3.18 3.03 2.92 2.83 2.77 2.71 14 4.60 3.74 3.34 3.11 2.96 2.85 2.76 2.70 2.65
  • 87.
    86 15 4.54 3.683.29 3.06 2.90 2.79 2.71 2.64 2.59 16 4.49 3.63 3.24 3.01 2.85 2.74 2.66 2.59 2.54 17 4.45 3.59 3.20 2.96 2.81 2.70 2.61 2.55 2.49 18 4.41 3.55 3.16 2.93 2.77 2.66 2.58 2.51 2.46 19 4.38 3.52 3.13 2.90 2.74 2.63 2.54 2.48 2.42 20 4.35 3.49 3.10 2.87 2.71 2.60 2.51 2.45 2.39 21 4.32 3.47 3.07 2.84 2.68 2.57 2.49 2.42 2.37 22 4.30 3.44 3.05 2.82 2.66 2.55 2.46 2.40 2.34 23 4.28 3.42 3.03 2.80 2.64 2.53 2.44 2.37 2.32 24 4.26 3.40 3.01 2.78 2.62 2.51 2.42 2.36 2.30 25 4.24 3.39 2.99 2.76 2.60 2.49 2.40 2.34 2.28 26 4.23 3.37 2.98 2.74 2.59 2.47 2.39 2.32 2.27 27 4.21 3.35 2.96 2.73 2.57 2.46 2.37 2.31 2.25 28 4.20 3.34 2.95 2.71 2.56 2.45 2.36 2.29 2.24 29 4.18 3.33 2.93 2.70 2.55 2.43 2.35 2.28 2.22 30 4.17 3.32 2.92 2.69 2.53 2.42 2.33 2.27 2.21 40 4.08 3.23 2.84 2.61 2.45 2.34 2.25 2.18 2.12 60 4.00 3.15 2.76 2.53 2.37 2.25 2.17 2.10 2.04 120 3.92 3.07 2.68 2.45 2.29 2.17 2.09 2.02 1.96  3.84 3.00 2.60 2.37 2.21 2.10 2.01 1.94 1.88
  • 88.
    87 Τιμές aννF ;,21 της F κατανομής για τις οποίες aFXPFXP aννaνν  )()( ;,;, 2121 )( 05.0a . Για τα α - κάτω ποσοστιαία σημεία aννF 1;, 21 ισχύει η σχέση aννaνν FF ;,;, 1221 11  . 1ν 2ν 10 12 15 20 24 30 40 60 120  1 241.9 243.9 245.9 248.0 249.1 250.1 251.1 252.2 253.3 254.3 2 19.40 19.41 19.43 19.45 19.45 19.46 19.47 19.48 19.49 19.50 3 8.79 8.74 8.70 8.66 8.64 8.62 8.59 8.57 8.55 8.53 4 5.96 5.91 5.86 5.80 5.77 5.75 5.72 5.69 5.66 5.63 5 4.74 4.68 4.62 4.56 4.53 4.50 4.46 4.43 4.40 4.36 6 4.06 4.00 3.94 3.87 3.84 3.81 3.77 3.74 3.70 3.67 7 3.64 3.57 3.51 3.44 3.41 3.38 3.34 3.30 3.27 3.23 8 3.35 3.28 3.22 3.15 3.12 3.08 3.04 3.01 2.97 2.93 9 3.14 3.07 3.01 2.94 2.90 2.86 2.83 2.79 2.75 2.71 10 2.98 2.91 2.85 2.77 2.74 2.70 2.66 2.62 2.58 2.54 11 2.85 2.79 2.72 2.65 2.61 2.57 2.53 2.49 2.45 2.40 12 2.75 2.69 2.62 2.54 2.51 2.47 2.43 2.38 2.34 2.30 13 2.67 2.60 2.53 2.46 2.42 2.38 2.34 2.30 2.25 2.21 14 2.60 2.53 2.46 2.39 2.35 2.31 2.27 2.22 2.18 2.13
  • 89.
    88 15 2.54 2.482.40 2.33 2.29 2.25 2.20 2.16 2.11 2.07 16 2.49 2.42 2.35 2.28 2.24 2.19 2.15 2.11 2.06 2.01 17 2.45 2.38 2.31 2.23 2.19 2.15 2.10 2.06 2.01 1.96 18 2.41 2.34 2.27 2.19 2.15 2.11 2.06 2.02 1.97 1.92 19 2.38 2.31 2.23 2.16 2.11 2.07 2.03 1.98 1.93 1.88 20 2.35 2.28 2.20 2.12 2.08 2.04 1.99 1.95 1.90 1.84 21 2.32 2.25 2.18 2.10 2.05 2.01 1.96 1.92 1.87 1.81 22 2.30 2.23 2.15 2.07 2.03 1.98 1.94 1.89 1.84 1.78 23 2.27 2.20 2.13 2.05 2.01 1.96 1.91 1.86 1.81 1.76 24 2.25 2.18 2.11 2.03 1.98 1.94 1.89 1.84 1.79 1.73 25 2.24 2.16 2.09 2.01 1.96 1.92 1.87 1.82 1.77 1.71 26 2.22 2.15 2.07 1.99 1.95 1.90 1.85 1.80 1.75 1.69 27 2.20 2.13 2.06 1.97 1.93 1.88 1.84 1.79 1.73 1.67 28 2.19 2.12 2.04 1.96 1.91 1.87 1.82 1.77 1.71 1.65 29 2.18 2.10 2.03 1.94 1.90 1.85 1.81 1.75 1.70 1.64 30 2.16 2.09 2.01 1.93 1.89 1.84 1.79 1.74 1.68 1.62 40 2.08 2.00 1.92 1.84 1.79 1.74 1.69 1.64 1.58 1.51 60 1.99 1.92 1.84 1.75 1.70 1.65 1.59 1.53 1.47 1.39 120 1.91 1.83 1.75 1.66 1.61 1.55 1.50 1.43 1.35 1.25  1.83 1.75 1.67 1.57 1.52 1.46 1.39 1.32 1.22 1.00
  • 90.
    89 Βιβλιογραφία Ελληνική Βιβλιογραφία  ΠέτροςΑ. Κιόχος( 1993), Στατιστική, Εκδ. Interbooks, Αθήνα  Χρήστος Κ. Φράγκος(1998), Στατιστική Επιχειρήσεων για τις οικονομικές και κοινωνικές επιστήμες, Εκδ. Α. Σταμούλης, Αθήνα  Χαράλαμπος Γναρδέλλης(2003), Εφαρμοσμένη Στατιστική, Εκδ. Παπαζήσης.  Λαζαρίδης,, Αλέξανδρος, Ν.(2008) , Στατιστική, Εκδ. Δίαυλος.  Εγκυκλοπαίδεια Νέα Δομή έγχρωμη(1996), Εκδ. Δομή ,Αθήνα. Ξενόγλωσση Βιβλιογραφία  Gerald Keller (2010), Στατιστική για Οικονομικά και Διοίκηση Επιχειρήσεων, Εκδ. Επίκεντρο, Θεσσαλονίκη.
  • 91.
    90  Bernard W.Lindgren,Statistical Theory Fourth Edition, Εκδ. Chapman &Hall/CRC. Χρήσιμες Ιστοσελίδες  http://cran.r-project.org/doc/contrib/mainfokianoscharalambous.pdf  http://www.math.ntua.gr/~fouskakis/Data_Analysis/02.pdf  http://www.cyclismo.org/tutorial/R/index.html  http://www.statmethods.net/  http://www.r-tutor.com/