SlideShare a Scribd company logo
1 of 28
ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ
ΟΙΚΟΝΟΜΙΚΑ ΔΕΔΟΜΕΝΑ
ΚΑΙ ΔΕΔΟΜΕΝΑ ΟΙΚΩΝ
ΑΞΙΟΛΟΓΗΣΗΣ
Γεωργούσης Ηλίας
Επιβλέπων Καθηγητής: Η. Βαρλάμης
Περιεχόμενα
• Σκοπός
• Ερευνητικά Ερωτήματα
• Μακροοικονομικά Μεγέθη
• Προετοιμασία δεδομένων
• Το Πείραμα μας
• Το Μοντέλο
• Συμπεράσματα
Σκοπός
Θέλουμε να εξετάσουμε αν οι μεταβολές στους οικονομικούς δείκτες της
ΠαγκόσμιαςΤράπεζας μπορούν να οδηγήσουν σε πρόβλεψη μιας υποβάθμισης ή
αναβάθμισης της πιστοληπτικής ικανότητας μιας Εθνικής Οικονομίας.
Για το σκοπό αυτό (proof of concept) πήραμε τα ratings του Fitch για 106 χώρες για
το χρονικό διάστημα 2005-2012 στο οποίο καλύπτεται η περίοδος ανάπτυξης πριν
τη κρίση του 2008, η ύφεση αλλά και τα επόμενα βήματα της ανάκαμψης που
ακολούθησαν την κρίση και οικονομικούς δείκτες από την παγκόσμια τράπεζα και
προβήκαμε σε Ανάλυση Συσχέτισης (Correlation Analysis) και κατασκευής ενός
μοντέλου προβλέψεων.
Ανάλυση Συσχέτισης
Ανάλυση συσχέτισης είναι ένα σύνολο στατιστικών τεχνικών που
χρησιμοποιούνται για να μετρήσουν το μέγεθος συσχέτισης μεταξύ δύο
μεταβλητών, της εξαρτημένης και της ανεξάρτητης.
Στην περίπτωση μας, η εξαρτημένη μεταβλητή είναι ηΥποβάθμιση ή Αναβάθμιση
μιας οικονομίας. Θα θέλαμε να δούμε τόσο αν υπάρχει correlation μεταξύ των
υπολοίπων γνωρισμάτων (ιδανικά correlation=0) όσο και αν υπάρχει συσχέτιση
κάθε γνωρίσματος με το γνώρισμα που θέλουμε να προβλέπουμε (ιδανικά τα
γνωρίσματα με correlation = 0 θα πρέπει να απαλειφθούν).
Ερευνητικά Ερωτήματα
1. Υπάρχουν συγκεκριμένοι μακροοικονομικοί δείκτες οι οποίοι φαίνεται να επηρεάζουν
την αξιολόγηση κάποιας εθνικής οικονομίας;
2. Αν αυτοί οι δείκτες υπάρχουν σε ποιο βαθμό επηρεάζουν και τι βαρύτητα έχουν;
3. Παρατηρείται κάποιο μοτίβο ή πρότυπο στις κινήσεις μεταξύ των βαθμών της
αξιολόγησης και της κίνησης των οικονομικών μεγεθών ώστε να μπορεί να γίνει χρήση
του για πρόβλεψη κάποιας μελλοντικής επερχόμενης αξιολόγησης;
Ανάλυση Μακροοικονομικών μεγεθών
Δείκτες μελλοντικής ανάλυσης
 Imports of goods and services (Εισαγωγές προϊόντων και υπηρεσιών)
 Land area (sq. Km) (Μέγεθος των χωρών σε τετραγωνικά χιλιόμετρα)
 Trade in services (% of GDP) (Εμπόριο σε υπηρεσίες σε ποσοστό επί τις
100 του ΑΕΠ)
 Services, etc.,Value added (% of GDP) (Προστιθέμενη αξία από
υπηρεσίες σε ποσοστό επί τις 100 τουΑΕΠ)
 Secondary income, other sectors, payments (BoP, current US$)
(Δευτερεύων εισόδημα)
 Cash surplus/deficit (% of GDP) (Μετρητά πλεόνασμα / έλλειμμα % του
ΑΕΠ)
 GDP per Capita current US$ (Το κατά κεφαλήνΑΕΠ (σε τρέχουσες US $)
Δείκτες στη τρέχουσα ανάλυση
1. GDP – ΑΕΠ
2. GDP Growth – Ρυθμός αύξησης του
ΑΕΠ
3. Exports of goods and services (% of
GDP) (Εξαγωγές προϊόντων και
υπηρεσιών σε ποσοστό επί τις 100 του
ΑΕΠ)
4. Inflation – πληθωρισμός
5. Gold Reserves – Αποθέματα Χρυσού
6. Central government debt, total (% of
GDP) - Κεντρικό δημόσιο χρέος,
συνολικό (% του ΑΕΠ)
Χώρες προς μελέτη 106
Αυστρία, Βέλγιο, Κροατία, Βουλγαρία, Κύπρος,Τσεχία, Δανία, Εσθονία,Φιλανδία, Γαλλία,
Γερμανία, Ελλάδα, Ουγγαρία, Ιρλανδία,Λετονία,Λιθουανία,Λουξεμβούργο, Μάλτα,
Ολλανδία, Πολωνία, Πορτογαλία, Ρουμανία, Σλοβενία, Σλοβακία, Σουηδία, Ισπανία,
Ηνωμένο Βασίλειο, Ιταλία, Ηνωμένες Πολιτείες,Τουρκία,Δομινικανή Δημοκρατία,
Εκουαδόρ,Αίγυπτος, Ελ Σαλβαδόρ,Φιλανδία, ΠΓΔΜ, Γκάμπια, Γεωργία, Γκάνα, Χονγκ
Κονγκ, Ισλανδία, Ινδία, Ινδονησία, Ιράν, Ισραήλ, Ιταλία,Τζαμάικα, Ιαπωνία, Καζακστάν,
Κορέα, Κουβέιτ,Λίβανος,Λεσότο,Λιβύη, Μαλάουι, Μαλαισία, Μεξικό, Μολδαβία,
Μογγολία, Νέα Ζηλανδία, Παναμάς, Παπούα, Περού,Φιλιππίνες, Ρωσία, Ρουάντα, Σαν
Μαρίνο, ΣαουδικήΑραβία, Σεϋχέλλες, Σιγκαπούρη, ΝότιαΑφρική, Σρι Λάνκα,Σουρινάμ,
Ταϊλάνδη,Τυνήσια,Τουρκία,Τουρκμενιστάν,Ουρουγουάη, Βενεζουέλα, Βιετνάμ,Αγκόλα,
Αργεντινή, Αρμενία,Αυστραλία,Αζερμπαϊτζάν, Μπαχρέιν, Βερμούδες, Βολιβία, Βραζιλία,
Καμερούν, Καναδάς,Χιλή, Κίνα, Κολομβία, Κόστα Ρίκα,Αρούμπα, ΠράσινοΑκρωτήριο.
Δεδομένα
Αφετηρία της ανάλυσης μας είναι τα δύο πρώτα αρχεία Excel:
 Excel (1): Περιέχει τα δεδομένα των μακροοικονομικών δεικτών που έχουμε
περιγράψει στο Κεφαλαίο 3 για κάθε χώρα.Το συγκεκριμένο Excel το
κατασκευάσαμε σύμφωνα με τα βήματα που ακολουθούν παρακάτω και
δεδομένα που αντλήσαμε από τη ΠαγκόσμιαΤράπεζα.
• Excel (2): Οι αξιολογήσεις πιστοληπτικής ικανότητας των χωρών από τον Οίκο
Fitch, το συγκεκριμένο Excel είναι δημοσιευμένο στο Παγκόσμιο Ιστό και το
χρησιμοποιήσαμε αφού καθαρίσαμε κάποια από τα δεδομένα του.
Excel (1):
Excel (2):
Εξαγωγή Δεδομένων 1/4
Εξαγωγή Δεδομένων 2/4
Εξαγωγή Δεδομένων 3/4
Εξαγωγή Δεδομένων 4/4
Τα δεδομένα 1/2
Τα δεδομένα 2/2
Weka
ΤοWeka (Java) είναι λογισμικό ανάλυσης δεδομένων και κατασκευής
μοντέλων προβλέψεων, όπως θα χρησιμοποιηθεί στη παρούσα εργασία, με
τη χρήση αλγορίθμων και εργαλείων οπτικοποίησης.
Πείραμα
Στο πείραμα μας θα τρέξουμε (10-
fold cross validation) τους
παρακάτω αλγόριθμους:
1. J48
2. Random Forest
3. Naive Bayes
4. Rotation Forest
5. SMO
6. ibk (1-NN)
7. Vote
8. Attribute Selected (Infogain
& ranker)
Αποτελέσματα Αλγορίθμων
Total Instances = 373 Total Attributes = 68
Αποτελέσματα με 10 fold cross validation στο αρχικό dataset
Classification Algorithm correctly classified instances percentage F-measure promoted F-measure demoted F-measure average
J48 250 67.02% 70.60% 62.40% 67%
Random Forest 246 65.95% 71.50% 57.80% 65.50%
Naive Bayes 160 42.90% 44.40% 41.30% 43%
Rotation Forest 240 64.34% 69.30% 57.50% 64.10%
SMO 213 57.10% 70.30% 32.10% 49.50%
ibk (1-NN) 222 59.52% 68.70% 42.60% 57.20%
Vote 256 68.63% 72.70% 63.10% 68.50%
Attribute Selected (Infogain & ranker) 247 66.22% 68.30% 63.80% 66.30%
Εκπαίδευση και επαλήθευση του μοντέλου 1/2
Θέλουμε να δούμε αν ο καλύτερος αλγόριθμος που προέκυψε από τις εξαγωγές παραπάνω είναι και αρκετά γενικός.
Κατά πάσα πιθανότητα αυτό μας το έχει καλύψει το 10-fold που χρησιμοποιούμε.
Παρόλα αυτά οι δύο καμπύλες μάθησης που θα βγουν στο plot στο τέλος αυτής της ενότητας θα μας δείξουν και αν
υπάρχουν περιθώρια περαιτέρω εκπαίδευσης.
Using the best Classification Algorithm from above (J48) Αποτελέσματα evaluation στο ίδιο το training set κάθε φορά
Size of the training dataset correctly classified instances percentage F-measure promoted F-measure demoted F-measure average
10% 32 96.97% 97.10% 96.80% 97%
20% 63 95.45% 95.50% 95.40% 95.50%
30% 94 94.95% 95.50% 94.30% 94.90%
40% 126 95.45% 95.70% 95.20% 95.50%
50% 155 93.94% 94.40% 93.30% 93.90%
60% 171 86.36% 88.70% 82.80% 86.10%
70% 208 90.04% 91.60% 87.70% 89.90%
80% 216 81.82% 83.40% 79.80% 81.80%
90% 267 89.90% 90.60% 89.10% 89.90%
100% 263 79.70% 83.10% 74.50% 79.30%
Εκπαίδευση και επαλήθευση του μοντέλου 2/2
Using the best Classification Algorithm from above (J48) Αποτελέσματα evaluation στο ξεχωριστό test set
Size of the training dataset correctly classified instances percentage F-measure promoted F-measure demoted F-measure average
10% 27 62.79% 61.90% 63.60% 62.60%
20% 26 60.47% 62.20% 58.50% 60.80%
30% 28 65.12% 71.70% 54.50% 64.90%
40% 28 65.12% 68.10% 61.50% 65.50%
50% 29 67.44% 74.10% 56.30% 67%
60% 31 72.09% 76% 66.70% 72.30%
70% 30 69.77% 75.50% 60.60% 69.60%
80% 33 76.74% 80% 72.20% 76.90%
90% 33 76.74% 81.50% 68.80% 76.40%
100% 28 65.12% 70.60% 57.10% 65.30%
Καμπύλες Μάθησης
Το σφάλμα στο test πλησιάζει κάποια στιγμή και το σφάλμα στο training. Αλλά και πάλι το ταβάνι μας φαίνεται να είναι στο
80% accuracy (ιδανικά θα ήταν το 90%). Αφού εκεί πέφτει και το training. Αυτό σημαίνει ότι η ανάλυση μας είναι σε σωστό
δρόμο και με περισσότερα features ή instances θα μπορούσε και ακόμη καλύτερα.
Size of the dataset correctly classified instances percentage
F-measure
promoted
F-measure
demoted
F-measure
average
80% 216 81.82% 83.40% 79.80% 81.80%
80% 33 76.74% 80% 72.20% 76.90%
Μοντέλο - J48
Κανόνας Α
Για τις χώρες που έχει μεσολαβήσει μεγαλύτερο χρονικό
διάστημα από μια αξιολόγηση και το ΑΕΠ τους είναι
θετικό και τα αποθέματα χρυσού είναι υψηλά, είναι κατά
κύριο λόγο θετικές οι αξιολογήσεις που λαμβάνουν.
Κανόνας Β
Για τις χώρες που οι αξιολογήσεις γίνονται σε μικρότερο
χρονικό διάστημα μεταξύ τους, και το ΑΕΠ τους μειώνεται
μεταξύ των ετών 4 και 5 της ανάλυσης μας αλλά και οι
εξαγωγές τους είναι αρνητικές είναι κατά κύριο λόγο
αρνητικές.
Δείκτες με ιδιαίτερη βαρύτητα και
συσχέτιση
Συμπεράσματα
 Κατασκευάσαμε ένα μοντέλο, ένα δέντρο απόφασης (J48) που με ακρίβεια
γύρω στο 70% προβλέπει σωστά.
 Οι δείκτες που φαίνεται να έχουν τη μεγαλύτερη επίδραση είναι:
TimePassed_In_Years και gdpgrowthdiff3-2.
 Η βαρύτητα των δεικτών είναι : κοντά στο 0.1 και 0.02 αντίστοιχα στον
InfoGain.
 Καμπύλες μάθησης και περιθώρια βελτίωσης.
Data Mining from World Bank and Fitch

More Related Content

Similar to Data Mining from World Bank and Fitch

Μακέδας Θεμιστοκλής
Μακέδας ΘεμιστοκλήςΜακέδας Θεμιστοκλής
Μακέδας ΘεμιστοκλήςISSEL
 
5ο ΠΑΝΕΛΛΗΝΙΟ ΣΥΝΕΔΡΙΟ ΓΙΑ ΤΗ ΔΙΟΙΚΗΣΗ, ΤΑ ΟΙΚΟΝΟΜΙΚΑ ΚΑΙ ΤΙΣ ΠΟΛΙΤΙΚΕΣ ΥΓΕΙΑΣ
5ο ΠΑΝΕΛΛΗΝΙΟ ΣΥΝΕΔΡΙΟ ΓΙΑ ΤΗ ΔΙΟΙΚΗΣΗ, ΤΑ ΟΙΚΟΝΟΜΙΚΑ ΚΑΙ ΤΙΣ ΠΟΛΙΤΙΚΕΣ ΥΓΕΙΑΣ 5ο ΠΑΝΕΛΛΗΝΙΟ ΣΥΝΕΔΡΙΟ ΓΙΑ ΤΗ ΔΙΟΙΚΗΣΗ, ΤΑ ΟΙΚΟΝΟΜΙΚΑ ΚΑΙ ΤΙΣ ΠΟΛΙΤΙΚΕΣ ΥΓΕΙΑΣ
5ο ΠΑΝΕΛΛΗΝΙΟ ΣΥΝΕΔΡΙΟ ΓΙΑ ΤΗ ΔΙΟΙΚΗΣΗ, ΤΑ ΟΙΚΟΝΟΜΙΚΑ ΚΑΙ ΤΙΣ ΠΟΛΙΤΙΚΕΣ ΥΓΕΙΑΣ Filippos Stamatiadis
 
Γεροκώστα
ΓεροκώσταΓεροκώστα
ΓεροκώσταISSEL
 
εργασια στατιστικη-1
εργασια στατιστικη-1εργασια στατιστικη-1
εργασια στατιστικη-1Aggelos Ser
 
Students' behavior in peer assessment. A multi-criteria clustering approach (...
Students' behavior in peer assessment. A multi-criteria clustering approach (...Students' behavior in peer assessment. A multi-criteria clustering approach (...
Students' behavior in peer assessment. A multi-criteria clustering approach (...Krassadaki Lia (Evangelia)
 
Forecasting Economic Activity using Asset Prices, Presentation (PowerPoint)
Forecasting Economic Activity using Asset Prices, Presentation (PowerPoint)Forecasting Economic Activity using Asset Prices, Presentation (PowerPoint)
Forecasting Economic Activity using Asset Prices, Presentation (PowerPoint)Panos Kouvelis
 
εργασια στατιστικη-1
εργασια στατιστικη-1εργασια στατιστικη-1
εργασια στατιστικη-1Aggelos Ser
 
Εισαγωγή στη Στατιστική
Εισαγωγή στη ΣτατιστικήΕισαγωγή στη Στατιστική
Εισαγωγή στη ΣτατιστικήPantelis Bouboulis
 
PPK-RCM OD2 Business and Cluster Intelligence in ICT: The Paltform and the ap...
PPK-RCM OD2 Business and Cluster Intelligence in ICT: The Paltform and the ap...PPK-RCM OD2 Business and Cluster Intelligence in ICT: The Paltform and the ap...
PPK-RCM OD2 Business and Cluster Intelligence in ICT: The Paltform and the ap...URENIO Research Unit
 
ΕΡΓΑΣΙΑ EXXON KAI AT&T ΟΛΟΚΛΗΡΗ
ΕΡΓΑΣΙΑ EXXON KAI AT&T ΟΛΟΚΛΗΡΗΕΡΓΑΣΙΑ EXXON KAI AT&T ΟΛΟΚΛΗΡΗ
ΕΡΓΑΣΙΑ EXXON KAI AT&T ΟΛΟΚΛΗΡΗIlias Pappas
 
Εφαρμογή κι Έλεγχος Εσωτερικού Συστήματος Διασφάλισης Ποιότητας.pdf
Εφαρμογή κι Έλεγχος Εσωτερικού Συστήματος Διασφάλισης Ποιότητας.pdfΕφαρμογή κι Έλεγχος Εσωτερικού Συστήματος Διασφάλισης Ποιότητας.pdf
Εφαρμογή κι Έλεγχος Εσωτερικού Συστήματος Διασφάλισης Ποιότητας.pdfssuser9421c7
 
Εφαρμογή κι Έλεγχος Εσωτερικού Συστήματος Διασφάλισης Ποιότητας.pdf
Εφαρμογή κι Έλεγχος Εσωτερικού Συστήματος Διασφάλισης Ποιότητας.pdfΕφαρμογή κι Έλεγχος Εσωτερικού Συστήματος Διασφάλισης Ποιότητας.pdf
Εφαρμογή κι Έλεγχος Εσωτερικού Συστήματος Διασφάλισης Ποιότητας.pdfssuser9421c7
 
Εφαρμογή κι Έλεγχος Εσωτερικού Συστήματος Διασφάλισης Ποιότητας.pdf
Εφαρμογή κι Έλεγχος Εσωτερικού Συστήματος Διασφάλισης Ποιότητας.pdfΕφαρμογή κι Έλεγχος Εσωτερικού Συστήματος Διασφάλισης Ποιότητας.pdf
Εφαρμογή κι Έλεγχος Εσωτερικού Συστήματος Διασφάλισης Ποιότητας.pdfssuser9421c7
 
Εφαρμογή κι Έλεγχος Εσωτερικού Συστήματος Διασφάλισης Ποιότητας.pdf
Εφαρμογή κι Έλεγχος Εσωτερικού Συστήματος Διασφάλισης Ποιότητας.pdfΕφαρμογή κι Έλεγχος Εσωτερικού Συστήματος Διασφάλισης Ποιότητας.pdf
Εφαρμογή κι Έλεγχος Εσωτερικού Συστήματος Διασφάλισης Ποιότητας.pdfssuser9421c7
 
Λύσεις σχολικού βιβλίου Στατιστικής Β Λυκείου 2019 - 20
Λύσεις σχολικού βιβλίου Στατιστικής Β Λυκείου 2019 - 20Λύσεις σχολικού βιβλίου Στατιστικής Β Λυκείου 2019 - 20
Λύσεις σχολικού βιβλίου Στατιστικής Β Λυκείου 2019 - 20Μάκης Χατζόπουλος
 
το πλήρες κείμενο του σχεδίου
το πλήρες κείμενο του σχεδίουτο πλήρες κείμενο του σχεδίου
το πλήρες κείμενο του σχεδίουireportergr
 
Μιλτιάδης Σιάββας 7523
Μιλτιάδης Σιάββας 7523Μιλτιάδης Σιάββας 7523
Μιλτιάδης Σιάββας 7523ISSEL
 
1 επιχειρηματικός σχεδιασμός 2012 13
1 επιχειρηματικός σχεδιασμός 2012 131 επιχειρηματικός σχεδιασμός 2012 13
1 επιχειρηματικός σχεδιασμός 2012 13moke_uth
 

Similar to Data Mining from World Bank and Fitch (20)

Μακέδας Θεμιστοκλής
Μακέδας ΘεμιστοκλήςΜακέδας Θεμιστοκλής
Μακέδας Θεμιστοκλής
 
5ο ΠΑΝΕΛΛΗΝΙΟ ΣΥΝΕΔΡΙΟ ΓΙΑ ΤΗ ΔΙΟΙΚΗΣΗ, ΤΑ ΟΙΚΟΝΟΜΙΚΑ ΚΑΙ ΤΙΣ ΠΟΛΙΤΙΚΕΣ ΥΓΕΙΑΣ
5ο ΠΑΝΕΛΛΗΝΙΟ ΣΥΝΕΔΡΙΟ ΓΙΑ ΤΗ ΔΙΟΙΚΗΣΗ, ΤΑ ΟΙΚΟΝΟΜΙΚΑ ΚΑΙ ΤΙΣ ΠΟΛΙΤΙΚΕΣ ΥΓΕΙΑΣ 5ο ΠΑΝΕΛΛΗΝΙΟ ΣΥΝΕΔΡΙΟ ΓΙΑ ΤΗ ΔΙΟΙΚΗΣΗ, ΤΑ ΟΙΚΟΝΟΜΙΚΑ ΚΑΙ ΤΙΣ ΠΟΛΙΤΙΚΕΣ ΥΓΕΙΑΣ
5ο ΠΑΝΕΛΛΗΝΙΟ ΣΥΝΕΔΡΙΟ ΓΙΑ ΤΗ ΔΙΟΙΚΗΣΗ, ΤΑ ΟΙΚΟΝΟΜΙΚΑ ΚΑΙ ΤΙΣ ΠΟΛΙΤΙΚΕΣ ΥΓΕΙΑΣ
 
Γεροκώστα
ΓεροκώσταΓεροκώστα
Γεροκώστα
 
εργασια στατιστικη-1
εργασια στατιστικη-1εργασια στατιστικη-1
εργασια στατιστικη-1
 
Students' behavior in peer assessment. A multi-criteria clustering approach (...
Students' behavior in peer assessment. A multi-criteria clustering approach (...Students' behavior in peer assessment. A multi-criteria clustering approach (...
Students' behavior in peer assessment. A multi-criteria clustering approach (...
 
Forecasting Economic Activity using Asset Prices, Presentation (PowerPoint)
Forecasting Economic Activity using Asset Prices, Presentation (PowerPoint)Forecasting Economic Activity using Asset Prices, Presentation (PowerPoint)
Forecasting Economic Activity using Asset Prices, Presentation (PowerPoint)
 
Presentation2
Presentation2Presentation2
Presentation2
 
εργασια στατιστικη-1
εργασια στατιστικη-1εργασια στατιστικη-1
εργασια στατιστικη-1
 
Εισαγωγή στη Στατιστική
Εισαγωγή στη ΣτατιστικήΕισαγωγή στη Στατιστική
Εισαγωγή στη Στατιστική
 
PPK-RCM OD2 Business and Cluster Intelligence in ICT: The Paltform and the ap...
PPK-RCM OD2 Business and Cluster Intelligence in ICT: The Paltform and the ap...PPK-RCM OD2 Business and Cluster Intelligence in ICT: The Paltform and the ap...
PPK-RCM OD2 Business and Cluster Intelligence in ICT: The Paltform and the ap...
 
ΕΡΓΑΣΙΑ EXXON KAI AT&T ΟΛΟΚΛΗΡΗ
ΕΡΓΑΣΙΑ EXXON KAI AT&T ΟΛΟΚΛΗΡΗΕΡΓΑΣΙΑ EXXON KAI AT&T ΟΛΟΚΛΗΡΗ
ΕΡΓΑΣΙΑ EXXON KAI AT&T ΟΛΟΚΛΗΡΗ
 
Εφαρμογή κι Έλεγχος Εσωτερικού Συστήματος Διασφάλισης Ποιότητας.pdf
Εφαρμογή κι Έλεγχος Εσωτερικού Συστήματος Διασφάλισης Ποιότητας.pdfΕφαρμογή κι Έλεγχος Εσωτερικού Συστήματος Διασφάλισης Ποιότητας.pdf
Εφαρμογή κι Έλεγχος Εσωτερικού Συστήματος Διασφάλισης Ποιότητας.pdf
 
Εφαρμογή κι Έλεγχος Εσωτερικού Συστήματος Διασφάλισης Ποιότητας.pdf
Εφαρμογή κι Έλεγχος Εσωτερικού Συστήματος Διασφάλισης Ποιότητας.pdfΕφαρμογή κι Έλεγχος Εσωτερικού Συστήματος Διασφάλισης Ποιότητας.pdf
Εφαρμογή κι Έλεγχος Εσωτερικού Συστήματος Διασφάλισης Ποιότητας.pdf
 
Εφαρμογή κι Έλεγχος Εσωτερικού Συστήματος Διασφάλισης Ποιότητας.pdf
Εφαρμογή κι Έλεγχος Εσωτερικού Συστήματος Διασφάλισης Ποιότητας.pdfΕφαρμογή κι Έλεγχος Εσωτερικού Συστήματος Διασφάλισης Ποιότητας.pdf
Εφαρμογή κι Έλεγχος Εσωτερικού Συστήματος Διασφάλισης Ποιότητας.pdf
 
Εφαρμογή κι Έλεγχος Εσωτερικού Συστήματος Διασφάλισης Ποιότητας.pdf
Εφαρμογή κι Έλεγχος Εσωτερικού Συστήματος Διασφάλισης Ποιότητας.pdfΕφαρμογή κι Έλεγχος Εσωτερικού Συστήματος Διασφάλισης Ποιότητας.pdf
Εφαρμογή κι Έλεγχος Εσωτερικού Συστήματος Διασφάλισης Ποιότητας.pdf
 
Λύσεις σχολικού βιβλίου Στατιστικής Β Λυκείου 2019 - 20
Λύσεις σχολικού βιβλίου Στατιστικής Β Λυκείου 2019 - 20Λύσεις σχολικού βιβλίου Στατιστικής Β Λυκείου 2019 - 20
Λύσεις σχολικού βιβλίου Στατιστικής Β Λυκείου 2019 - 20
 
Αξιολόγηση Υπηρεσιών ΕΒΕΧ 2014
Αξιολόγηση Υπηρεσιών ΕΒΕΧ 2014 Αξιολόγηση Υπηρεσιών ΕΒΕΧ 2014
Αξιολόγηση Υπηρεσιών ΕΒΕΧ 2014
 
το πλήρες κείμενο του σχεδίου
το πλήρες κείμενο του σχεδίουτο πλήρες κείμενο του σχεδίου
το πλήρες κείμενο του σχεδίου
 
Μιλτιάδης Σιάββας 7523
Μιλτιάδης Σιάββας 7523Μιλτιάδης Σιάββας 7523
Μιλτιάδης Σιάββας 7523
 
1 επιχειρηματικός σχεδιασμός 2012 13
1 επιχειρηματικός σχεδιασμός 2012 131 επιχειρηματικός σχεδιασμός 2012 13
1 επιχειρηματικός σχεδιασμός 2012 13
 

Data Mining from World Bank and Fitch

  • 1. ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΟΙΚΟΝΟΜΙΚΑ ΔΕΔΟΜΕΝΑ ΚΑΙ ΔΕΔΟΜΕΝΑ ΟΙΚΩΝ ΑΞΙΟΛΟΓΗΣΗΣ Γεωργούσης Ηλίας Επιβλέπων Καθηγητής: Η. Βαρλάμης
  • 2. Περιεχόμενα • Σκοπός • Ερευνητικά Ερωτήματα • Μακροοικονομικά Μεγέθη • Προετοιμασία δεδομένων • Το Πείραμα μας • Το Μοντέλο • Συμπεράσματα
  • 3. Σκοπός Θέλουμε να εξετάσουμε αν οι μεταβολές στους οικονομικούς δείκτες της ΠαγκόσμιαςΤράπεζας μπορούν να οδηγήσουν σε πρόβλεψη μιας υποβάθμισης ή αναβάθμισης της πιστοληπτικής ικανότητας μιας Εθνικής Οικονομίας. Για το σκοπό αυτό (proof of concept) πήραμε τα ratings του Fitch για 106 χώρες για το χρονικό διάστημα 2005-2012 στο οποίο καλύπτεται η περίοδος ανάπτυξης πριν τη κρίση του 2008, η ύφεση αλλά και τα επόμενα βήματα της ανάκαμψης που ακολούθησαν την κρίση και οικονομικούς δείκτες από την παγκόσμια τράπεζα και προβήκαμε σε Ανάλυση Συσχέτισης (Correlation Analysis) και κατασκευής ενός μοντέλου προβλέψεων.
  • 4. Ανάλυση Συσχέτισης Ανάλυση συσχέτισης είναι ένα σύνολο στατιστικών τεχνικών που χρησιμοποιούνται για να μετρήσουν το μέγεθος συσχέτισης μεταξύ δύο μεταβλητών, της εξαρτημένης και της ανεξάρτητης. Στην περίπτωση μας, η εξαρτημένη μεταβλητή είναι ηΥποβάθμιση ή Αναβάθμιση μιας οικονομίας. Θα θέλαμε να δούμε τόσο αν υπάρχει correlation μεταξύ των υπολοίπων γνωρισμάτων (ιδανικά correlation=0) όσο και αν υπάρχει συσχέτιση κάθε γνωρίσματος με το γνώρισμα που θέλουμε να προβλέπουμε (ιδανικά τα γνωρίσματα με correlation = 0 θα πρέπει να απαλειφθούν).
  • 5. Ερευνητικά Ερωτήματα 1. Υπάρχουν συγκεκριμένοι μακροοικονομικοί δείκτες οι οποίοι φαίνεται να επηρεάζουν την αξιολόγηση κάποιας εθνικής οικονομίας; 2. Αν αυτοί οι δείκτες υπάρχουν σε ποιο βαθμό επηρεάζουν και τι βαρύτητα έχουν; 3. Παρατηρείται κάποιο μοτίβο ή πρότυπο στις κινήσεις μεταξύ των βαθμών της αξιολόγησης και της κίνησης των οικονομικών μεγεθών ώστε να μπορεί να γίνει χρήση του για πρόβλεψη κάποιας μελλοντικής επερχόμενης αξιολόγησης;
  • 6. Ανάλυση Μακροοικονομικών μεγεθών Δείκτες μελλοντικής ανάλυσης  Imports of goods and services (Εισαγωγές προϊόντων και υπηρεσιών)  Land area (sq. Km) (Μέγεθος των χωρών σε τετραγωνικά χιλιόμετρα)  Trade in services (% of GDP) (Εμπόριο σε υπηρεσίες σε ποσοστό επί τις 100 του ΑΕΠ)  Services, etc.,Value added (% of GDP) (Προστιθέμενη αξία από υπηρεσίες σε ποσοστό επί τις 100 τουΑΕΠ)  Secondary income, other sectors, payments (BoP, current US$) (Δευτερεύων εισόδημα)  Cash surplus/deficit (% of GDP) (Μετρητά πλεόνασμα / έλλειμμα % του ΑΕΠ)  GDP per Capita current US$ (Το κατά κεφαλήνΑΕΠ (σε τρέχουσες US $) Δείκτες στη τρέχουσα ανάλυση 1. GDP – ΑΕΠ 2. GDP Growth – Ρυθμός αύξησης του ΑΕΠ 3. Exports of goods and services (% of GDP) (Εξαγωγές προϊόντων και υπηρεσιών σε ποσοστό επί τις 100 του ΑΕΠ) 4. Inflation – πληθωρισμός 5. Gold Reserves – Αποθέματα Χρυσού 6. Central government debt, total (% of GDP) - Κεντρικό δημόσιο χρέος, συνολικό (% του ΑΕΠ)
  • 7. Χώρες προς μελέτη 106 Αυστρία, Βέλγιο, Κροατία, Βουλγαρία, Κύπρος,Τσεχία, Δανία, Εσθονία,Φιλανδία, Γαλλία, Γερμανία, Ελλάδα, Ουγγαρία, Ιρλανδία,Λετονία,Λιθουανία,Λουξεμβούργο, Μάλτα, Ολλανδία, Πολωνία, Πορτογαλία, Ρουμανία, Σλοβενία, Σλοβακία, Σουηδία, Ισπανία, Ηνωμένο Βασίλειο, Ιταλία, Ηνωμένες Πολιτείες,Τουρκία,Δομινικανή Δημοκρατία, Εκουαδόρ,Αίγυπτος, Ελ Σαλβαδόρ,Φιλανδία, ΠΓΔΜ, Γκάμπια, Γεωργία, Γκάνα, Χονγκ Κονγκ, Ισλανδία, Ινδία, Ινδονησία, Ιράν, Ισραήλ, Ιταλία,Τζαμάικα, Ιαπωνία, Καζακστάν, Κορέα, Κουβέιτ,Λίβανος,Λεσότο,Λιβύη, Μαλάουι, Μαλαισία, Μεξικό, Μολδαβία, Μογγολία, Νέα Ζηλανδία, Παναμάς, Παπούα, Περού,Φιλιππίνες, Ρωσία, Ρουάντα, Σαν Μαρίνο, ΣαουδικήΑραβία, Σεϋχέλλες, Σιγκαπούρη, ΝότιαΑφρική, Σρι Λάνκα,Σουρινάμ, Ταϊλάνδη,Τυνήσια,Τουρκία,Τουρκμενιστάν,Ουρουγουάη, Βενεζουέλα, Βιετνάμ,Αγκόλα, Αργεντινή, Αρμενία,Αυστραλία,Αζερμπαϊτζάν, Μπαχρέιν, Βερμούδες, Βολιβία, Βραζιλία, Καμερούν, Καναδάς,Χιλή, Κίνα, Κολομβία, Κόστα Ρίκα,Αρούμπα, ΠράσινοΑκρωτήριο.
  • 8. Δεδομένα Αφετηρία της ανάλυσης μας είναι τα δύο πρώτα αρχεία Excel:  Excel (1): Περιέχει τα δεδομένα των μακροοικονομικών δεικτών που έχουμε περιγράψει στο Κεφαλαίο 3 για κάθε χώρα.Το συγκεκριμένο Excel το κατασκευάσαμε σύμφωνα με τα βήματα που ακολουθούν παρακάτω και δεδομένα που αντλήσαμε από τη ΠαγκόσμιαΤράπεζα. • Excel (2): Οι αξιολογήσεις πιστοληπτικής ικανότητας των χωρών από τον Οίκο Fitch, το συγκεκριμένο Excel είναι δημοσιευμένο στο Παγκόσμιο Ιστό και το χρησιμοποιήσαμε αφού καθαρίσαμε κάποια από τα δεδομένα του.
  • 17. Weka ΤοWeka (Java) είναι λογισμικό ανάλυσης δεδομένων και κατασκευής μοντέλων προβλέψεων, όπως θα χρησιμοποιηθεί στη παρούσα εργασία, με τη χρήση αλγορίθμων και εργαλείων οπτικοποίησης.
  • 18. Πείραμα Στο πείραμα μας θα τρέξουμε (10- fold cross validation) τους παρακάτω αλγόριθμους: 1. J48 2. Random Forest 3. Naive Bayes 4. Rotation Forest 5. SMO 6. ibk (1-NN) 7. Vote 8. Attribute Selected (Infogain & ranker)
  • 19. Αποτελέσματα Αλγορίθμων Total Instances = 373 Total Attributes = 68 Αποτελέσματα με 10 fold cross validation στο αρχικό dataset Classification Algorithm correctly classified instances percentage F-measure promoted F-measure demoted F-measure average J48 250 67.02% 70.60% 62.40% 67% Random Forest 246 65.95% 71.50% 57.80% 65.50% Naive Bayes 160 42.90% 44.40% 41.30% 43% Rotation Forest 240 64.34% 69.30% 57.50% 64.10% SMO 213 57.10% 70.30% 32.10% 49.50% ibk (1-NN) 222 59.52% 68.70% 42.60% 57.20% Vote 256 68.63% 72.70% 63.10% 68.50% Attribute Selected (Infogain & ranker) 247 66.22% 68.30% 63.80% 66.30%
  • 20. Εκπαίδευση και επαλήθευση του μοντέλου 1/2 Θέλουμε να δούμε αν ο καλύτερος αλγόριθμος που προέκυψε από τις εξαγωγές παραπάνω είναι και αρκετά γενικός. Κατά πάσα πιθανότητα αυτό μας το έχει καλύψει το 10-fold που χρησιμοποιούμε. Παρόλα αυτά οι δύο καμπύλες μάθησης που θα βγουν στο plot στο τέλος αυτής της ενότητας θα μας δείξουν και αν υπάρχουν περιθώρια περαιτέρω εκπαίδευσης. Using the best Classification Algorithm from above (J48) Αποτελέσματα evaluation στο ίδιο το training set κάθε φορά Size of the training dataset correctly classified instances percentage F-measure promoted F-measure demoted F-measure average 10% 32 96.97% 97.10% 96.80% 97% 20% 63 95.45% 95.50% 95.40% 95.50% 30% 94 94.95% 95.50% 94.30% 94.90% 40% 126 95.45% 95.70% 95.20% 95.50% 50% 155 93.94% 94.40% 93.30% 93.90% 60% 171 86.36% 88.70% 82.80% 86.10% 70% 208 90.04% 91.60% 87.70% 89.90% 80% 216 81.82% 83.40% 79.80% 81.80% 90% 267 89.90% 90.60% 89.10% 89.90% 100% 263 79.70% 83.10% 74.50% 79.30%
  • 21. Εκπαίδευση και επαλήθευση του μοντέλου 2/2 Using the best Classification Algorithm from above (J48) Αποτελέσματα evaluation στο ξεχωριστό test set Size of the training dataset correctly classified instances percentage F-measure promoted F-measure demoted F-measure average 10% 27 62.79% 61.90% 63.60% 62.60% 20% 26 60.47% 62.20% 58.50% 60.80% 30% 28 65.12% 71.70% 54.50% 64.90% 40% 28 65.12% 68.10% 61.50% 65.50% 50% 29 67.44% 74.10% 56.30% 67% 60% 31 72.09% 76% 66.70% 72.30% 70% 30 69.77% 75.50% 60.60% 69.60% 80% 33 76.74% 80% 72.20% 76.90% 90% 33 76.74% 81.50% 68.80% 76.40% 100% 28 65.12% 70.60% 57.10% 65.30%
  • 22. Καμπύλες Μάθησης Το σφάλμα στο test πλησιάζει κάποια στιγμή και το σφάλμα στο training. Αλλά και πάλι το ταβάνι μας φαίνεται να είναι στο 80% accuracy (ιδανικά θα ήταν το 90%). Αφού εκεί πέφτει και το training. Αυτό σημαίνει ότι η ανάλυση μας είναι σε σωστό δρόμο και με περισσότερα features ή instances θα μπορούσε και ακόμη καλύτερα. Size of the dataset correctly classified instances percentage F-measure promoted F-measure demoted F-measure average 80% 216 81.82% 83.40% 79.80% 81.80% 80% 33 76.74% 80% 72.20% 76.90%
  • 24. Κανόνας Α Για τις χώρες που έχει μεσολαβήσει μεγαλύτερο χρονικό διάστημα από μια αξιολόγηση και το ΑΕΠ τους είναι θετικό και τα αποθέματα χρυσού είναι υψηλά, είναι κατά κύριο λόγο θετικές οι αξιολογήσεις που λαμβάνουν.
  • 25. Κανόνας Β Για τις χώρες που οι αξιολογήσεις γίνονται σε μικρότερο χρονικό διάστημα μεταξύ τους, και το ΑΕΠ τους μειώνεται μεταξύ των ετών 4 και 5 της ανάλυσης μας αλλά και οι εξαγωγές τους είναι αρνητικές είναι κατά κύριο λόγο αρνητικές.
  • 26. Δείκτες με ιδιαίτερη βαρύτητα και συσχέτιση
  • 27. Συμπεράσματα  Κατασκευάσαμε ένα μοντέλο, ένα δέντρο απόφασης (J48) που με ακρίβεια γύρω στο 70% προβλέπει σωστά.  Οι δείκτες που φαίνεται να έχουν τη μεγαλύτερη επίδραση είναι: TimePassed_In_Years και gdpgrowthdiff3-2.  Η βαρύτητα των δεικτών είναι : κοντά στο 0.1 και 0.02 αντίστοιχα στον InfoGain.  Καμπύλες μάθησης και περιθώρια βελτίωσης.