Machine Learning: Regression with Conjugate Gradient and Levenberg Marquardt Algorithms

Αλεβιζόπουλος Άγγελος
Βελώνης Γεώργιος
1

Περιεχόμενα
 Νευρωνικά Δίκτυα Πολλαπλών Στρωμάτων (Multilayer
Perceptron - MLP)
 Εκπαίδευση ενός Τεχνητού Νευρωνικού Δικτύου (ΤΝΔ)
 Στάδια εκπαίδευσης ΤΝΔ
 Δίκτυα ανάστροφης μετάδοσης λάθους -Backpropagation
(BP)
 Παλινδρόμηση (Regression)
 Conjugate Gradient BP (CG)
 Levenberg – Marquardt BP (LM)
 Wine Quality Dataset
 Μέθοδοι Αξιολόγησης Αποτελεσμάτων
 Αποτελέσματα - Συμπεράσματα
2

Νευρωνικά Δίκτυα Πολλαπλών Στρωμάτων
(Multilayer Perceptron - MLP) 1/3
 είναι δίκτυα εμπρόσθιας τροφοδότησης (feedforward)
 εκπαιδεύονται μετά από μια διαδικασία, η οποία
παρουσιάζει στο δίκτυο σετ δεδομένων εισόδου και
εξόδους – στόχους
 χρησιμοποιούν μη γραμμικές συναρτήσεις ενεργοποίησης
 χαρακτηρίζονται από την ιδιότητα της καθολικής
προσέγγισης (global approximation)
 ο πιο διαδεδομένος κανόνας για την εκπαίδευσή τους είναι
ο backpropagation (BP)

 Αποτελούνται από:
 ένα σύνολο κόμβων εισόδου,
 ένα ή περισσότερα κρυφά
στρώματα που αποτελούνται από
νευρώνες που εκτελούν
υπολογισμούς και
 ένα στρώμα εξόδου, το οποίο
επίσης αποτελείται από νευρώνες
που εκτελούν υπολογισμούς
Γενική τοπολογία ενός δικτύου MLP

 Σύμφωνα με την ιδιότητα της καθολικής προσέγγισης, ένα
MLP δίκτυο δύο στρωμάτων, μπορεί να προσεγγίσει όσο καλά
επιθυμούμε οποιαδήποτε συνεχή συνάρτηση, αρκεί:
 να έχουμε αρκετούς κρυφούς νευρώνες
 οι νευρώνες του κρυφού στρώματος να έχουν την
συνάρτηση ενεργοποίησης υπερβολικής εφαπτομένης
(MatLab - tansig)
 οι νευρώνας εξόδου να έχουν τη γραμμική συνάρτηση
ενεργοποίησης (MatLab - purelin)
Υπερβολική
εφαπτομένη
Γραμμική
συνάρτηση

Εκπαίδευση ενός Τεχνητού
Νευρωνικού Δικτύου (ΤΝΔ)
 Βασικός στόχο της εκπαίδευσης ενός ΤΝΔ είναι να βρεθεί
ένας τρόπος αλλαγής των βαρών που θα έχει σαν
αποτέλεσμα την αύξηση της ικανότητας του δικτύου να
παρέχει στο μέλλον μία επιθυμητή έξοδο μετά από μία
δεδομένη είσοδο.
 Supervised learning: η έξοδος είναι εκ των προτέρων
γνωστή
 Unsupervised learning: έχουμε μόνο τις εισόδους
 Reinforcement Learning: δεν έχουμε άμεση πρόσβαση
στην "σωστή" έξοδο, αλλά μπορούμε να πάρουμε κάποια
μέτρηση της ποιότητας μιας εξόδου μετά την είσοδο
6

Στάδια εκπαίδευσης ΤΝΔ
7
Τεχνητό
Νευρωνικό
Δίκτυο
Αρχικά
Δεδομένα
Επιθυμητοί Έξοδοι
Προσδιορισμός
Βαρών
Σύναψης
Εκπαιδευμένο
Τεχνητό
Νευρωνικό
Δίκτυο
Νέα Δεδομένα
Προβλεπόμενοι
έξοδοι
Στάδιο 1: Εκπαίδευση
Δικτύου
Στάδιο 2: Έλεγχος
(Test) Δικτύου

Δίκτυα Backpropagation (BP) 1/2
8
 Είναι Feedforward (FF) ΤΝΔ
 Supervised learning - Για κάθε είσοδο που δίνεται στο
δίκτυο, υπολογίζονται οι έξοδοι εφαρμόζοντας τις
συναρτήσεις μετάβασης σε κάθε μονάδα κρυφού ή
εξωτερικού στρώματος.
 Διαδικασία Βackpropagation - Οι διαφορές μεταξύ του
υπολογιζόμενου και του επιθυμητού αποτελέσματος
λαμβάνονται υπ' όψιν και προπαγανδίζονται προς τα πίσω
στις κρυμμένες μονάδες έτσι ώστε να καθορίσουν τις
απαραίτητες αλλαγές (κανόνας εκμάθησης) στα βάρη
σύνδεσης μεταξύ των μονάδων.

Δίκτυα Backpropagation (BP) 2/2
9
Αλγόριθμος Λειτουργίας του BP

Παλινδρόμηση (Regression)
 Είναι η διαδικασία προσδιορισμού της σχέσης μιας
μεταβλητής y (εξαρτημένη μεταβλητή ή έξοδος) µε µια ή
περισσότερες άλλες μεταβλητές x1, x2, …, xn (ανεξάρτητες
μεταβλητές ή είσοδοι).
 Σκοπός της είναι η πρόβλεψη της τιμής της εξόδου όταν είναι
γνωστές οι είσοδοι.
 Το πιο διαδεδομένο μοντέλο είναι το γραμμικό (linear), όπου η
αναμενόμενη τιμή της εξόδου μοντελοποιείται µε µία
γραμμική συνάρτηση.
 Αφορά στη δημιουργία μοντέλων πρόβλεψης αριθμητικών
τιμών (π.χ. πρόβλεψη ισοτιμίας νομισμάτων ή τιμής μετοχής).
10

Conjugate Gradient BP (CG)
 Λέγεται και Συζυγής Κατάβαση Δυναμικού με
Οπισθοδρόμηση,
 μπορεί να χρησιμοποιηθεί στην εκπαίδευση δικτύων
πολλών στρωμάτων,
 δεν απαιτεί τον υπολογισμό της δεύτερης παραγώγου,
 έχει τη δυνατότητα της τετραγωνικής σύγκλισης,
 στο MatLab, ο αλγόριθμος εκπαίδευσης που
χρησιμοποιήθηκε είναι ο Fletcher-Powell Conjugate
Gradient αλγόριθμος (traincgf).
11

Levenberg – Marquardt BP (LM)
 Ο αλγόριθμος αυτός μπορεί να θεωρηθεί σαν γενίκευση
του αλγορίθμου Ελάχιστων Μέσων Τετραγώνων,
 βασίζεται στον κανόνα μάθησης με ανάστροφη διόρθωση,
 είναι γρήγορος και έχει σταθερή σύγκλιση,
 στα ΤΝΔ είναι κατάλληλος για την επίλυση μικρού και
μεσαίου μεγέθους προβλημάτων,
 στο Matlab, η υλοποίησή του πραγματοποιείται με τη
χρήση της συνάρτησης trainlm, η οποία ενημερώνει τις
τιμές βάρους και πόλωσης σύμφωνα με τη βελτιστοποίηση
του LM.
12

Wine Quality Dataset 1/2
13
 Το σύνολο των δεδομένων προέρχεται από το Κέντρο
Εκμάθησης Μηχανών και Ευφυών Συστημάτων του UC
Irvine (http://cml.ics.uci.edu) μέσα από την έρευνα
των των Ρ. Cortez, Α. Cerdeira, F. Almeida, Τ. Matos
και J. Reis,
 είναι οργανωμένα σε δύο αρχεία, το πρώτο με 1599
κόκκινα κρασιά και το δεύτερο με 4898 λευκά κρασιά,
 το κάθε δεδομένο περιέχει 11 χημικά χαρακτηριστικά
καθώς και ένα χαρακτηριστικό ποιότητας (βαθμός 1
έως 10).

Wine Quality Dataset 2/2
Χαρακτηριστικές Τιμές
14
1. Fixed acidity (g(tartaric acid) / dm3)
2. Volatile acidity (g(acetic acid) / dm3)
3. Citric acid (g / dm3)
4. Residual sugar (g / dm3)
5. Chlorides (g(sodium chloride) / dm3)
6. Free sulfur dioxide (mg / dm3)
7. Total sulfur dioxide (mg / dm3)
8. Density (g / cm3)
9. ph
10. Sulphates (g(potassium sulphate) / dm3)
11. Alcohol (% by volume)

Μέθοδοι Αξιολόγησης Αποτελεσμάτων 1/6
Hold-out 1/2
15
 το σύνολο δεδομένων διαχωρίζεται σε δύο ανεξάρτητα
σύνολα δεδομένων:
 εκπαίδευσης (training set): χρησιμοποιείται για την
εκπαίδευση του ταξινομητή και κρατάμε συνήθως το 80%
του συνόλου των δεδομένων
 ελέγχου (test set): χρησιμοποιείται για δοκιμές ελέγχου
(εκτίμηση του σφάλματος)
Διαχωρισμός δειγμάτων σε test και training

Hold-out 2/2
16
 Η μέθοδος hold-out είναι µια απλή μέθοδος η οποία
είναι εύκολη στην υλοποίηση, παρόλα αυτά, έχει δύο
βασικά μειονεκτήματα:
 Στην περίπτωση που έχουμε μικρό σύνολο δεδομένων,
δεν είναι δυνατό να κρατήσουμε δείγματα για δοκιμή.
 Μπορεί ο χωρισμός στις δύο ομάδων να είναι τέτοιος
που να παραπλανήσει το σφάλμα.
Λύση στα παραπάνω προβλήματα – το cross-validation

Cross-Validation
17
 Στις μεθόδους cross-validation χρησιμοποιείται ολόκληρο
το σύνολο δεδομένων για εκπαίδευση και για έλεγχο,
 διεξάγονται πολλαπλάσια πειράματα εις βάρος του
υψηλότερου υπολογιστικού κόστους,
 περιλαμβάνονται:
 Random Subsampling (τυχαία δειγματοληψία),
 K-Fold Cross-Validation (διασταυρωμένη επικύρωση
σε Κ μέρη) και
 Leave-one-out Cross-Validation (εξαίρεσε ένα)

random subsampling 1/3
18
 Ακολουθεί παρόμοια λογική µε την hold-out
 Εφαρμόζουμε τυχαία δειγματοληψία χωρίς
επανατοποθέτηση,
 επιλέγουμε Ν πρότυπα για το σύνολο ελέγχου,
 τα εναπομένοντα πρότυπα σχηματίζουν το σύνολο
εκπαίδευσης
 μειώνεται η επιρροή που μπορεί να επιφέρει η κατανομή των
στιγμιότυπων στο σύνολο δεδομένων.
 διαδικασία επαναλαμβάνεται Κ φορές ώστε να επιτευχθεί η
μεγαλύτερη δυνατή μείωση της επιρροής

19
Τυχαία δειγματοληψία
Το συνολικό ποσοστό λάθους Ε υπολογίζεται ως ο μέσος όρος των
σφαλμάτων Εi

20

Διακοπή εκπαίδευσης στην
βέλτιστη εποχή
21
Ξεκινάμε με
τυχαία βάρη,
άρα υψηλό
σφάλμα γιατί
είναι
ανεκπαίδευτο
Βέλτιστη
πολυπλοκότητα
Εδώ σταματά η
εκπαίδευση.
Βρισκόμαστε ανάμεσα
στην υπομοντελοποίηση
και υπερμοντελοποίηση.

Πίνακας αποτελεσμάτων
white CG & white LM
22

Πίνακας αποτελεσμάτων
red CG & red LM
23

white CG & white LM
Μέσο σφάλμα ανά αριθμό νευρώνων
24white CG white LM

red CG & red LM
Μέσο σφάλμα ανά αριθμό νευρώνων
25red CG red LM

white CG & white LM
Μέσος χρόνος εκπαίδευσης ανά αριθμό νευρώνων
26white CG white LM

red CG & red LM
Μέσος χρόνος εκπαίδευσης ανά αριθμό νευρώνων
27red CG red LM

white CG & white LM
Μέσος αριθμός εποχών ανά αριθμό νευρώνων
28white CG white LM

red CG & red LM
Μέσος αριθμός εποχών ανά αριθμό νευρώνων
29red CG red LM

white CG & white LM
Πρόβλεψη στο test set για το μοντέλο με 50/40 νευρώνες
30white CG white LM

red CG & red LM
Πρόβλεψη στο test set για το μοντέλο με 20/10
νευρώνες
31red CG red LM

Τελική σύγκριση
32

Συμπεράσματα
 Το δίκτυο δεν εκπαιδεύεται σωστά σε υψηλές και χαμηλές
βαθμολογίες λόγω μικρού μεγέθους δείγματος.
 Ο αλγόριθμος LM είναι πολύ πιο ταχύτερος από τον CG.
 Ο αλγόριθμος LM απαιτεί πολύ μικρότερο αριθμό εποχών
σε σχέση με τον CG.
 Το ποσοστό του συντελεστή συσχέτισης μεταξύ
προβλέψεων και στόχων R (που δίνει η παλινδρόμηση),
καθώς και το ποσοστό σφάλματος είναι περίπου ίδιο και
για τους δύο αλγόριθμους, στην αντίστοιχη κατηγορία
κρασιών.
33

Machine Learning: Regression with Conjugate Gradient and Levenberg Marquardt Algorithms

Recommended

Recommended

More Related Content

Similar to Machine Learning: Regression with Conjugate Gradient and Levenberg Marquardt Algorithms

Similar to Machine Learning: Regression with Conjugate Gradient and Levenberg Marquardt Algorithms (13)

Machine Learning: Regression with Conjugate Gradient and Levenberg Marquardt Algorithms

Editor's Notes