SlideShare a Scribd company logo
1 of 34
Αλεβιζόπουλος Άγγελος
Βελώνης Γεώργιος
1
Περιεχόμενα
 Νευρωνικά Δίκτυα Πολλαπλών Στρωμάτων (Multilayer
Perceptron - MLP)
 Εκπαίδευση ενός Τεχνητού Νευρωνικού Δικτύου (ΤΝΔ)
 Στάδια εκπαίδευσης ΤΝΔ
 Δίκτυα ανάστροφης μετάδοσης λάθους -Backpropagation
(BP)
 Παλινδρόμηση (Regression)
 Conjugate Gradient BP (CG)
 Levenberg – Marquardt BP (LM)
 Wine Quality Dataset
 Μέθοδοι Αξιολόγησης Αποτελεσμάτων
 Αποτελέσματα - Συμπεράσματα
2
Νευρωνικά Δίκτυα Πολλαπλών Στρωμάτων
(Multilayer Perceptron - MLP) 1/3
 είναι δίκτυα εμπρόσθιας τροφοδότησης (feedforward)
 εκπαιδεύονται μετά από μια διαδικασία, η οποία
παρουσιάζει στο δίκτυο σετ δεδομένων εισόδου και
εξόδους – στόχους
 χρησιμοποιούν μη γραμμικές συναρτήσεις ενεργοποίησης
 χαρακτηρίζονται από την ιδιότητα της καθολικής
προσέγγισης (global approximation)
 ο πιο διαδεδομένος κανόνας για την εκπαίδευσή τους είναι
ο backpropagation (BP)
Νευρωνικά Δίκτυα Πολλαπλών Στρωμάτων
(Multilayer Perceptron - MLP) 2/3
 Αποτελούνται από:
 ένα σύνολο κόμβων εισόδου,
 ένα ή περισσότερα κρυφά
στρώματα που αποτελούνται από
νευρώνες που εκτελούν
υπολογισμούς και
 ένα στρώμα εξόδου, το οποίο
επίσης αποτελείται από νευρώνες
που εκτελούν υπολογισμούς
Γενική τοπολογία ενός δικτύου MLP
Νευρωνικά Δίκτυα Πολλαπλών Στρωμάτων
(Multilayer Perceptron - MLP) 3/3
 Σύμφωνα με την ιδιότητα της καθολικής προσέγγισης, ένα
MLP δίκτυο δύο στρωμάτων, μπορεί να προσεγγίσει όσο καλά
επιθυμούμε οποιαδήποτε συνεχή συνάρτηση, αρκεί:
 να έχουμε αρκετούς κρυφούς νευρώνες
 οι νευρώνες του κρυφού στρώματος να έχουν την
συνάρτηση ενεργοποίησης υπερβολικής εφαπτομένης
(MatLab - tansig)
 οι νευρώνας εξόδου να έχουν τη γραμμική συνάρτηση
ενεργοποίησης (MatLab - purelin)
Υπερβολική
εφαπτομένη
Γραμμική
συνάρτηση
Εκπαίδευση ενός Τεχνητού
Νευρωνικού Δικτύου (ΤΝΔ)
 Βασικός στόχο της εκπαίδευσης ενός ΤΝΔ είναι να βρεθεί
ένας τρόπος αλλαγής των βαρών που θα έχει σαν
αποτέλεσμα την αύξηση της ικανότητας του δικτύου να
παρέχει στο μέλλον μία επιθυμητή έξοδο μετά από μία
δεδομένη είσοδο.
 Supervised learning: η έξοδος είναι εκ των προτέρων
γνωστή
 Unsupervised learning: έχουμε μόνο τις εισόδους
 Reinforcement Learning: δεν έχουμε άμεση πρόσβαση
στην "σωστή" έξοδο, αλλά μπορούμε να πάρουμε κάποια
μέτρηση της ποιότητας μιας εξόδου μετά την είσοδο
6
Στάδια εκπαίδευσης ΤΝΔ
7
Τεχνητό
Νευρωνικό
Δίκτυο
Αρχικά
Δεδομένα
Επιθυμητοί Έξοδοι
Προσδιορισμός
Βαρών
Σύναψης
Εκπαιδευμένο
Τεχνητό
Νευρωνικό
Δίκτυο
Νέα Δεδομένα
Προβλεπόμενοι
έξοδοι
Στάδιο 1: Εκπαίδευση
Δικτύου
Στάδιο 2: Έλεγχος
(Test) Δικτύου
Δίκτυα Backpropagation (BP) 1/2
8
 Είναι Feedforward (FF) ΤΝΔ
 Supervised learning - Για κάθε είσοδο που δίνεται στο
δίκτυο, υπολογίζονται οι έξοδοι εφαρμόζοντας τις
συναρτήσεις μετάβασης σε κάθε μονάδα κρυφού ή
εξωτερικού στρώματος.
 Διαδικασία Βackpropagation - Οι διαφορές μεταξύ του
υπολογιζόμενου και του επιθυμητού αποτελέσματος
λαμβάνονται υπ' όψιν και προπαγανδίζονται προς τα πίσω
στις κρυμμένες μονάδες έτσι ώστε να καθορίσουν τις
απαραίτητες αλλαγές (κανόνας εκμάθησης) στα βάρη
σύνδεσης μεταξύ των μονάδων.
Δίκτυα Backpropagation (BP) 2/2
9
Αλγόριθμος Λειτουργίας του BP
Παλινδρόμηση (Regression)
 Είναι η διαδικασία προσδιορισμού της σχέσης μιας
μεταβλητής y (εξαρτημένη μεταβλητή ή έξοδος) µε µια ή
περισσότερες άλλες μεταβλητές x1, x2, …, xn (ανεξάρτητες
μεταβλητές ή είσοδοι).
 Σκοπός της είναι η πρόβλεψη της τιμής της εξόδου όταν είναι
γνωστές οι είσοδοι.
 Το πιο διαδεδομένο μοντέλο είναι το γραμμικό (linear), όπου η
αναμενόμενη τιμή της εξόδου μοντελοποιείται µε µία
γραμμική συνάρτηση.
 Αφορά στη δημιουργία μοντέλων πρόβλεψης αριθμητικών
τιμών (π.χ. πρόβλεψη ισοτιμίας νομισμάτων ή τιμής μετοχής).
10
Conjugate Gradient BP (CG)
 Λέγεται και Συζυγής Κατάβαση Δυναμικού με
Οπισθοδρόμηση,
 μπορεί να χρησιμοποιηθεί στην εκπαίδευση δικτύων
πολλών στρωμάτων,
 δεν απαιτεί τον υπολογισμό της δεύτερης παραγώγου,
 έχει τη δυνατότητα της τετραγωνικής σύγκλισης,
 στο MatLab, ο αλγόριθμος εκπαίδευσης που
χρησιμοποιήθηκε είναι ο Fletcher-Powell Conjugate
Gradient αλγόριθμος (traincgf).
11
Levenberg – Marquardt BP (LM)
 Ο αλγόριθμος αυτός μπορεί να θεωρηθεί σαν γενίκευση
του αλγορίθμου Ελάχιστων Μέσων Τετραγώνων,
 βασίζεται στον κανόνα μάθησης με ανάστροφη διόρθωση,
 είναι γρήγορος και έχει σταθερή σύγκλιση,
 στα ΤΝΔ είναι κατάλληλος για την επίλυση μικρού και
μεσαίου μεγέθους προβλημάτων,
 στο Matlab, η υλοποίησή του πραγματοποιείται με τη
χρήση της συνάρτησης trainlm, η οποία ενημερώνει τις
τιμές βάρους και πόλωσης σύμφωνα με τη βελτιστοποίηση
του LM.
12
Wine Quality Dataset 1/2
13
 Το σύνολο των δεδομένων προέρχεται από το Κέντρο
Εκμάθησης Μηχανών και Ευφυών Συστημάτων του UC
Irvine (http://cml.ics.uci.edu) μέσα από την έρευνα
των των Ρ. Cortez, Α. Cerdeira, F. Almeida, Τ. Matos
και J. Reis,
 είναι οργανωμένα σε δύο αρχεία, το πρώτο με 1599
κόκκινα κρασιά και το δεύτερο με 4898 λευκά κρασιά,
 το κάθε δεδομένο περιέχει 11 χημικά χαρακτηριστικά
καθώς και ένα χαρακτηριστικό ποιότητας (βαθμός 1
έως 10).
Wine Quality Dataset 2/2
Χαρακτηριστικές Τιμές
14
1. Fixed acidity (g(tartaric acid) / dm3)
2. Volatile acidity (g(acetic acid) / dm3)
3. Citric acid (g / dm3)
4. Residual sugar (g / dm3)
5. Chlorides (g(sodium chloride) / dm3)
6. Free sulfur dioxide (mg / dm3)
7. Total sulfur dioxide (mg / dm3)
8. Density (g / cm3)
9. ph
10. Sulphates (g(potassium sulphate) / dm3)
11. Alcohol (% by volume)
Μέθοδοι Αξιολόγησης Αποτελεσμάτων 1/6
Hold-out 1/2
15
 το σύνολο δεδομένων διαχωρίζεται σε δύο ανεξάρτητα
σύνολα δεδομένων:
 εκπαίδευσης (training set): χρησιμοποιείται για την
εκπαίδευση του ταξινομητή και κρατάμε συνήθως το 80%
του συνόλου των δεδομένων
 ελέγχου (test set): χρησιμοποιείται για δοκιμές ελέγχου
(εκτίμηση του σφάλματος)
Διαχωρισμός δειγμάτων σε test και training
Μέθοδοι Αξιολόγησης Αποτελεσμάτων 2/6
Hold-out 2/2
16
 Η μέθοδος hold-out είναι µια απλή μέθοδος η οποία
είναι εύκολη στην υλοποίηση, παρόλα αυτά, έχει δύο
βασικά μειονεκτήματα:
 Στην περίπτωση που έχουμε μικρό σύνολο δεδομένων,
δεν είναι δυνατό να κρατήσουμε δείγματα για δοκιμή.
 Μπορεί ο χωρισμός στις δύο ομάδων να είναι τέτοιος
που να παραπλανήσει το σφάλμα.
Λύση στα παραπάνω προβλήματα – το cross-validation
Μέθοδοι Αξιολόγησης Αποτελεσμάτων 3/6
Cross-Validation
17
 Στις μεθόδους cross-validation χρησιμοποιείται ολόκληρο
το σύνολο δεδομένων για εκπαίδευση και για έλεγχο,
 διεξάγονται πολλαπλάσια πειράματα εις βάρος του
υψηλότερου υπολογιστικού κόστους,
 περιλαμβάνονται:
 Random Subsampling (τυχαία δειγματοληψία),
 K-Fold Cross-Validation (διασταυρωμένη επικύρωση
σε Κ μέρη) και
 Leave-one-out Cross-Validation (εξαίρεσε ένα)
Μέθοδοι Αξιολόγησης Αποτελεσμάτων 4/6
random subsampling 1/3
18
 Ακολουθεί παρόμοια λογική µε την hold-out
 Εφαρμόζουμε τυχαία δειγματοληψία χωρίς
επανατοποθέτηση,
 επιλέγουμε Ν πρότυπα για το σύνολο ελέγχου,
 τα εναπομένοντα πρότυπα σχηματίζουν το σύνολο
εκπαίδευσης
 μειώνεται η επιρροή που μπορεί να επιφέρει η κατανομή των
στιγμιότυπων στο σύνολο δεδομένων.
 διαδικασία επαναλαμβάνεται Κ φορές ώστε να επιτευχθεί η
μεγαλύτερη δυνατή μείωση της επιρροής
Μέθοδοι Αξιολόγησης Αποτελεσμάτων 5/6
random subsampling 2/3
19
Τυχαία δειγματοληψία
Το συνολικό ποσοστό λάθους Ε υπολογίζεται ως ο μέσος όρος των
σφαλμάτων Εi
Μέθοδοι Αξιολόγησης Αποτελεσμάτων 6/6
random subsampling 3/3
20
Διακοπή εκπαίδευσης στην
βέλτιστη εποχή
21
Ξεκινάμε με
τυχαία βάρη,
άρα υψηλό
σφάλμα γιατί
είναι
ανεκπαίδευτο
Βέλτιστη
πολυπλοκότητα
Εδώ σταματά η
εκπαίδευση.
Βρισκόμαστε ανάμεσα
στην υπομοντελοποίηση
και υπερμοντελοποίηση.
Πίνακας αποτελεσμάτων
white CG & white LM
22
Πίνακας αποτελεσμάτων
red CG & red LM
23
white CG & white LM
Μέσο σφάλμα ανά αριθμό νευρώνων
24white CG white LM
red CG & red LM
Μέσο σφάλμα ανά αριθμό νευρώνων
25red CG red LM
white CG & white LM
Μέσος χρόνος εκπαίδευσης ανά αριθμό νευρώνων
26white CG white LM
red CG & red LM
Μέσος χρόνος εκπαίδευσης ανά αριθμό νευρώνων
27red CG red LM
white CG & white LM
Μέσος αριθμός εποχών ανά αριθμό νευρώνων
28white CG white LM
red CG & red LM
Μέσος αριθμός εποχών ανά αριθμό νευρώνων
29red CG red LM
white CG & white LM
Πρόβλεψη στο test set για το μοντέλο με 50/40 νευρώνες
30white CG white LM
red CG & red LM
Πρόβλεψη στο test set για το μοντέλο με 20/10
νευρώνες
31red CG red LM
Τελική σύγκριση
32
Συμπεράσματα
 Το δίκτυο δεν εκπαιδεύεται σωστά σε υψηλές και χαμηλές
βαθμολογίες λόγω μικρού μεγέθους δείγματος.
 Ο αλγόριθμος LM είναι πολύ πιο ταχύτερος από τον CG.
 Ο αλγόριθμος LM απαιτεί πολύ μικρότερο αριθμό εποχών
σε σχέση με τον CG.
 Το ποσοστό του συντελεστή συσχέτισης μεταξύ
προβλέψεων και στόχων R (που δίνει η παλινδρόμηση),
καθώς και το ποσοστό σφάλματος είναι περίπου ίδιο και
για τους δύο αλγόριθμους, στην αντίστοιχη κατηγορία
κρασιών.
33
34

More Related Content

Similar to Machine Learning: Regression with Conjugate Gradient and Levenberg Marquardt Algorithms

Συνεχής έμμεση αυθεντικοποίηση χρηστών κινητού τηλεφώνου με συνδυασμό των δεδ...
Συνεχής έμμεση αυθεντικοποίηση χρηστών κινητού τηλεφώνου με συνδυασμό των δεδ...Συνεχής έμμεση αυθεντικοποίηση χρηστών κινητού τηλεφώνου με συνδυασμό των δεδ...
Συνεχής έμμεση αυθεντικοποίηση χρηστών κινητού τηλεφώνου με συνδυασμό των δεδ...ISSEL
 
System Development for Prediction of Static Analysis Metrics of Source Code
System Development for Prediction of Static Analysis Metrics of Source CodeSystem Development for Prediction of Static Analysis Metrics of Source Code
System Development for Prediction of Static Analysis Metrics of Source CodeISSEL
 
Ανάπτυξη συστήματος πρόβλεψης της εξέλιξης των μετρικών στατικής ανάλυσης πηγ...
Ανάπτυξη συστήματος πρόβλεψης της εξέλιξης των μετρικών στατικής ανάλυσης πηγ...Ανάπτυξη συστήματος πρόβλεψης της εξέλιξης των μετρικών στατικής ανάλυσης πηγ...
Ανάπτυξη συστήματος πρόβλεψης της εξέλιξης των μετρικών στατικής ανάλυσης πηγ...ISSEL
 
Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων για την Εξαγωγή Προτύπων Διόρθωσης σε Σφ...
Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων για την Εξαγωγή Προτύπων Διόρθωσης σε Σφ...Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων για την Εξαγωγή Προτύπων Διόρθωσης σε Σφ...
Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων για την Εξαγωγή Προτύπων Διόρθωσης σε Σφ...ISSEL
 
Applying Data Mining Techniques to Extract Fix Patterns for Static Analysis V...
Applying Data Mining Techniques to Extract Fix Patterns for Static Analysis V...Applying Data Mining Techniques to Extract Fix Patterns for Static Analysis V...
Applying Data Mining Techniques to Extract Fix Patterns for Static Analysis V...ISSEL
 
Presentation laboratory automatic control ii 2018
Presentation laboratory automatic control ii  2018Presentation laboratory automatic control ii  2018
Presentation laboratory automatic control ii 2018Manolis Doudounakis
 
Presentation labarotary automatic control ii 2018
Presentation labarotary automatic control ii  2018Presentation labarotary automatic control ii  2018
Presentation labarotary automatic control ii 2018Manolis Doudounakis
 
A rule-based approach for the real-time semantic annotation in context-aware ...
A rule-based approach for the real-time semantic annotation in context-aware ...A rule-based approach for the real-time semantic annotation in context-aware ...
A rule-based approach for the real-time semantic annotation in context-aware ...Nikolaos Konstantinou
 
Καρβούνης Ευάγγελος
Καρβούνης Ευάγγελος Καρβούνης Ευάγγελος
Καρβούνης Ευάγγελος ISSEL
 
Ανάλυση αθλητικών επιδόσεων με τη χρήση του συστήματος REMEDES
Ανάλυση αθλητικών επιδόσεων με τη χρήση του συστήματος REMEDESΑνάλυση αθλητικών επιδόσεων με τη χρήση του συστήματος REMEDES
Ανάλυση αθλητικών επιδόσεων με τη χρήση του συστήματος REMEDESISSEL
 
Basketball data analytics via Machine Learning techniques using the REMEDES s...
Basketball data analytics via Machine Learning techniques using the REMEDES s...Basketball data analytics via Machine Learning techniques using the REMEDES s...
Basketball data analytics via Machine Learning techniques using the REMEDES s...ISSEL
 
Aepp kef101
Aepp kef101Aepp kef101
Aepp kef101mnikol
 
Περδικίδης Μιχάλης 7594
Περδικίδης Μιχάλης 7594Περδικίδης Μιχάλης 7594
Περδικίδης Μιχάλης 7594ISSEL
 

Similar to Machine Learning: Regression with Conjugate Gradient and Levenberg Marquardt Algorithms (13)

Συνεχής έμμεση αυθεντικοποίηση χρηστών κινητού τηλεφώνου με συνδυασμό των δεδ...
Συνεχής έμμεση αυθεντικοποίηση χρηστών κινητού τηλεφώνου με συνδυασμό των δεδ...Συνεχής έμμεση αυθεντικοποίηση χρηστών κινητού τηλεφώνου με συνδυασμό των δεδ...
Συνεχής έμμεση αυθεντικοποίηση χρηστών κινητού τηλεφώνου με συνδυασμό των δεδ...
 
System Development for Prediction of Static Analysis Metrics of Source Code
System Development for Prediction of Static Analysis Metrics of Source CodeSystem Development for Prediction of Static Analysis Metrics of Source Code
System Development for Prediction of Static Analysis Metrics of Source Code
 
Ανάπτυξη συστήματος πρόβλεψης της εξέλιξης των μετρικών στατικής ανάλυσης πηγ...
Ανάπτυξη συστήματος πρόβλεψης της εξέλιξης των μετρικών στατικής ανάλυσης πηγ...Ανάπτυξη συστήματος πρόβλεψης της εξέλιξης των μετρικών στατικής ανάλυσης πηγ...
Ανάπτυξη συστήματος πρόβλεψης της εξέλιξης των μετρικών στατικής ανάλυσης πηγ...
 
Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων για την Εξαγωγή Προτύπων Διόρθωσης σε Σφ...
Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων για την Εξαγωγή Προτύπων Διόρθωσης σε Σφ...Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων για την Εξαγωγή Προτύπων Διόρθωσης σε Σφ...
Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων για την Εξαγωγή Προτύπων Διόρθωσης σε Σφ...
 
Applying Data Mining Techniques to Extract Fix Patterns for Static Analysis V...
Applying Data Mining Techniques to Extract Fix Patterns for Static Analysis V...Applying Data Mining Techniques to Extract Fix Patterns for Static Analysis V...
Applying Data Mining Techniques to Extract Fix Patterns for Static Analysis V...
 
Presentation laboratory automatic control ii 2018
Presentation laboratory automatic control ii  2018Presentation laboratory automatic control ii  2018
Presentation laboratory automatic control ii 2018
 
Presentation labarotary automatic control ii 2018
Presentation labarotary automatic control ii  2018Presentation labarotary automatic control ii  2018
Presentation labarotary automatic control ii 2018
 
A rule-based approach for the real-time semantic annotation in context-aware ...
A rule-based approach for the real-time semantic annotation in context-aware ...A rule-based approach for the real-time semantic annotation in context-aware ...
A rule-based approach for the real-time semantic annotation in context-aware ...
 
Καρβούνης Ευάγγελος
Καρβούνης Ευάγγελος Καρβούνης Ευάγγελος
Καρβούνης Ευάγγελος
 
Ανάλυση αθλητικών επιδόσεων με τη χρήση του συστήματος REMEDES
Ανάλυση αθλητικών επιδόσεων με τη χρήση του συστήματος REMEDESΑνάλυση αθλητικών επιδόσεων με τη χρήση του συστήματος REMEDES
Ανάλυση αθλητικών επιδόσεων με τη χρήση του συστήματος REMEDES
 
Basketball data analytics via Machine Learning techniques using the REMEDES s...
Basketball data analytics via Machine Learning techniques using the REMEDES s...Basketball data analytics via Machine Learning techniques using the REMEDES s...
Basketball data analytics via Machine Learning techniques using the REMEDES s...
 
Aepp kef101
Aepp kef101Aepp kef101
Aepp kef101
 
Περδικίδης Μιχάλης 7594
Περδικίδης Μιχάλης 7594Περδικίδης Μιχάλης 7594
Περδικίδης Μιχάλης 7594
 

Machine Learning: Regression with Conjugate Gradient and Levenberg Marquardt Algorithms

  • 2. Περιεχόμενα  Νευρωνικά Δίκτυα Πολλαπλών Στρωμάτων (Multilayer Perceptron - MLP)  Εκπαίδευση ενός Τεχνητού Νευρωνικού Δικτύου (ΤΝΔ)  Στάδια εκπαίδευσης ΤΝΔ  Δίκτυα ανάστροφης μετάδοσης λάθους -Backpropagation (BP)  Παλινδρόμηση (Regression)  Conjugate Gradient BP (CG)  Levenberg – Marquardt BP (LM)  Wine Quality Dataset  Μέθοδοι Αξιολόγησης Αποτελεσμάτων  Αποτελέσματα - Συμπεράσματα 2
  • 3. Νευρωνικά Δίκτυα Πολλαπλών Στρωμάτων (Multilayer Perceptron - MLP) 1/3  είναι δίκτυα εμπρόσθιας τροφοδότησης (feedforward)  εκπαιδεύονται μετά από μια διαδικασία, η οποία παρουσιάζει στο δίκτυο σετ δεδομένων εισόδου και εξόδους – στόχους  χρησιμοποιούν μη γραμμικές συναρτήσεις ενεργοποίησης  χαρακτηρίζονται από την ιδιότητα της καθολικής προσέγγισης (global approximation)  ο πιο διαδεδομένος κανόνας για την εκπαίδευσή τους είναι ο backpropagation (BP)
  • 4. Νευρωνικά Δίκτυα Πολλαπλών Στρωμάτων (Multilayer Perceptron - MLP) 2/3  Αποτελούνται από:  ένα σύνολο κόμβων εισόδου,  ένα ή περισσότερα κρυφά στρώματα που αποτελούνται από νευρώνες που εκτελούν υπολογισμούς και  ένα στρώμα εξόδου, το οποίο επίσης αποτελείται από νευρώνες που εκτελούν υπολογισμούς Γενική τοπολογία ενός δικτύου MLP
  • 5. Νευρωνικά Δίκτυα Πολλαπλών Στρωμάτων (Multilayer Perceptron - MLP) 3/3  Σύμφωνα με την ιδιότητα της καθολικής προσέγγισης, ένα MLP δίκτυο δύο στρωμάτων, μπορεί να προσεγγίσει όσο καλά επιθυμούμε οποιαδήποτε συνεχή συνάρτηση, αρκεί:  να έχουμε αρκετούς κρυφούς νευρώνες  οι νευρώνες του κρυφού στρώματος να έχουν την συνάρτηση ενεργοποίησης υπερβολικής εφαπτομένης (MatLab - tansig)  οι νευρώνας εξόδου να έχουν τη γραμμική συνάρτηση ενεργοποίησης (MatLab - purelin) Υπερβολική εφαπτομένη Γραμμική συνάρτηση
  • 6. Εκπαίδευση ενός Τεχνητού Νευρωνικού Δικτύου (ΤΝΔ)  Βασικός στόχο της εκπαίδευσης ενός ΤΝΔ είναι να βρεθεί ένας τρόπος αλλαγής των βαρών που θα έχει σαν αποτέλεσμα την αύξηση της ικανότητας του δικτύου να παρέχει στο μέλλον μία επιθυμητή έξοδο μετά από μία δεδομένη είσοδο.  Supervised learning: η έξοδος είναι εκ των προτέρων γνωστή  Unsupervised learning: έχουμε μόνο τις εισόδους  Reinforcement Learning: δεν έχουμε άμεση πρόσβαση στην "σωστή" έξοδο, αλλά μπορούμε να πάρουμε κάποια μέτρηση της ποιότητας μιας εξόδου μετά την είσοδο 6
  • 7. Στάδια εκπαίδευσης ΤΝΔ 7 Τεχνητό Νευρωνικό Δίκτυο Αρχικά Δεδομένα Επιθυμητοί Έξοδοι Προσδιορισμός Βαρών Σύναψης Εκπαιδευμένο Τεχνητό Νευρωνικό Δίκτυο Νέα Δεδομένα Προβλεπόμενοι έξοδοι Στάδιο 1: Εκπαίδευση Δικτύου Στάδιο 2: Έλεγχος (Test) Δικτύου
  • 8. Δίκτυα Backpropagation (BP) 1/2 8  Είναι Feedforward (FF) ΤΝΔ  Supervised learning - Για κάθε είσοδο που δίνεται στο δίκτυο, υπολογίζονται οι έξοδοι εφαρμόζοντας τις συναρτήσεις μετάβασης σε κάθε μονάδα κρυφού ή εξωτερικού στρώματος.  Διαδικασία Βackpropagation - Οι διαφορές μεταξύ του υπολογιζόμενου και του επιθυμητού αποτελέσματος λαμβάνονται υπ' όψιν και προπαγανδίζονται προς τα πίσω στις κρυμμένες μονάδες έτσι ώστε να καθορίσουν τις απαραίτητες αλλαγές (κανόνας εκμάθησης) στα βάρη σύνδεσης μεταξύ των μονάδων.
  • 9. Δίκτυα Backpropagation (BP) 2/2 9 Αλγόριθμος Λειτουργίας του BP
  • 10. Παλινδρόμηση (Regression)  Είναι η διαδικασία προσδιορισμού της σχέσης μιας μεταβλητής y (εξαρτημένη μεταβλητή ή έξοδος) µε µια ή περισσότερες άλλες μεταβλητές x1, x2, …, xn (ανεξάρτητες μεταβλητές ή είσοδοι).  Σκοπός της είναι η πρόβλεψη της τιμής της εξόδου όταν είναι γνωστές οι είσοδοι.  Το πιο διαδεδομένο μοντέλο είναι το γραμμικό (linear), όπου η αναμενόμενη τιμή της εξόδου μοντελοποιείται µε µία γραμμική συνάρτηση.  Αφορά στη δημιουργία μοντέλων πρόβλεψης αριθμητικών τιμών (π.χ. πρόβλεψη ισοτιμίας νομισμάτων ή τιμής μετοχής). 10
  • 11. Conjugate Gradient BP (CG)  Λέγεται και Συζυγής Κατάβαση Δυναμικού με Οπισθοδρόμηση,  μπορεί να χρησιμοποιηθεί στην εκπαίδευση δικτύων πολλών στρωμάτων,  δεν απαιτεί τον υπολογισμό της δεύτερης παραγώγου,  έχει τη δυνατότητα της τετραγωνικής σύγκλισης,  στο MatLab, ο αλγόριθμος εκπαίδευσης που χρησιμοποιήθηκε είναι ο Fletcher-Powell Conjugate Gradient αλγόριθμος (traincgf). 11
  • 12. Levenberg – Marquardt BP (LM)  Ο αλγόριθμος αυτός μπορεί να θεωρηθεί σαν γενίκευση του αλγορίθμου Ελάχιστων Μέσων Τετραγώνων,  βασίζεται στον κανόνα μάθησης με ανάστροφη διόρθωση,  είναι γρήγορος και έχει σταθερή σύγκλιση,  στα ΤΝΔ είναι κατάλληλος για την επίλυση μικρού και μεσαίου μεγέθους προβλημάτων,  στο Matlab, η υλοποίησή του πραγματοποιείται με τη χρήση της συνάρτησης trainlm, η οποία ενημερώνει τις τιμές βάρους και πόλωσης σύμφωνα με τη βελτιστοποίηση του LM. 12
  • 13. Wine Quality Dataset 1/2 13  Το σύνολο των δεδομένων προέρχεται από το Κέντρο Εκμάθησης Μηχανών και Ευφυών Συστημάτων του UC Irvine (http://cml.ics.uci.edu) μέσα από την έρευνα των των Ρ. Cortez, Α. Cerdeira, F. Almeida, Τ. Matos και J. Reis,  είναι οργανωμένα σε δύο αρχεία, το πρώτο με 1599 κόκκινα κρασιά και το δεύτερο με 4898 λευκά κρασιά,  το κάθε δεδομένο περιέχει 11 χημικά χαρακτηριστικά καθώς και ένα χαρακτηριστικό ποιότητας (βαθμός 1 έως 10).
  • 14. Wine Quality Dataset 2/2 Χαρακτηριστικές Τιμές 14 1. Fixed acidity (g(tartaric acid) / dm3) 2. Volatile acidity (g(acetic acid) / dm3) 3. Citric acid (g / dm3) 4. Residual sugar (g / dm3) 5. Chlorides (g(sodium chloride) / dm3) 6. Free sulfur dioxide (mg / dm3) 7. Total sulfur dioxide (mg / dm3) 8. Density (g / cm3) 9. ph 10. Sulphates (g(potassium sulphate) / dm3) 11. Alcohol (% by volume)
  • 15. Μέθοδοι Αξιολόγησης Αποτελεσμάτων 1/6 Hold-out 1/2 15  το σύνολο δεδομένων διαχωρίζεται σε δύο ανεξάρτητα σύνολα δεδομένων:  εκπαίδευσης (training set): χρησιμοποιείται για την εκπαίδευση του ταξινομητή και κρατάμε συνήθως το 80% του συνόλου των δεδομένων  ελέγχου (test set): χρησιμοποιείται για δοκιμές ελέγχου (εκτίμηση του σφάλματος) Διαχωρισμός δειγμάτων σε test και training
  • 16. Μέθοδοι Αξιολόγησης Αποτελεσμάτων 2/6 Hold-out 2/2 16  Η μέθοδος hold-out είναι µια απλή μέθοδος η οποία είναι εύκολη στην υλοποίηση, παρόλα αυτά, έχει δύο βασικά μειονεκτήματα:  Στην περίπτωση που έχουμε μικρό σύνολο δεδομένων, δεν είναι δυνατό να κρατήσουμε δείγματα για δοκιμή.  Μπορεί ο χωρισμός στις δύο ομάδων να είναι τέτοιος που να παραπλανήσει το σφάλμα. Λύση στα παραπάνω προβλήματα – το cross-validation
  • 17. Μέθοδοι Αξιολόγησης Αποτελεσμάτων 3/6 Cross-Validation 17  Στις μεθόδους cross-validation χρησιμοποιείται ολόκληρο το σύνολο δεδομένων για εκπαίδευση και για έλεγχο,  διεξάγονται πολλαπλάσια πειράματα εις βάρος του υψηλότερου υπολογιστικού κόστους,  περιλαμβάνονται:  Random Subsampling (τυχαία δειγματοληψία),  K-Fold Cross-Validation (διασταυρωμένη επικύρωση σε Κ μέρη) και  Leave-one-out Cross-Validation (εξαίρεσε ένα)
  • 18. Μέθοδοι Αξιολόγησης Αποτελεσμάτων 4/6 random subsampling 1/3 18  Ακολουθεί παρόμοια λογική µε την hold-out  Εφαρμόζουμε τυχαία δειγματοληψία χωρίς επανατοποθέτηση,  επιλέγουμε Ν πρότυπα για το σύνολο ελέγχου,  τα εναπομένοντα πρότυπα σχηματίζουν το σύνολο εκπαίδευσης  μειώνεται η επιρροή που μπορεί να επιφέρει η κατανομή των στιγμιότυπων στο σύνολο δεδομένων.  διαδικασία επαναλαμβάνεται Κ φορές ώστε να επιτευχθεί η μεγαλύτερη δυνατή μείωση της επιρροής
  • 19. Μέθοδοι Αξιολόγησης Αποτελεσμάτων 5/6 random subsampling 2/3 19 Τυχαία δειγματοληψία Το συνολικό ποσοστό λάθους Ε υπολογίζεται ως ο μέσος όρος των σφαλμάτων Εi
  • 21. Διακοπή εκπαίδευσης στην βέλτιστη εποχή 21 Ξεκινάμε με τυχαία βάρη, άρα υψηλό σφάλμα γιατί είναι ανεκπαίδευτο Βέλτιστη πολυπλοκότητα Εδώ σταματά η εκπαίδευση. Βρισκόμαστε ανάμεσα στην υπομοντελοποίηση και υπερμοντελοποίηση.
  • 24. white CG & white LM Μέσο σφάλμα ανά αριθμό νευρώνων 24white CG white LM
  • 25. red CG & red LM Μέσο σφάλμα ανά αριθμό νευρώνων 25red CG red LM
  • 26. white CG & white LM Μέσος χρόνος εκπαίδευσης ανά αριθμό νευρώνων 26white CG white LM
  • 27. red CG & red LM Μέσος χρόνος εκπαίδευσης ανά αριθμό νευρώνων 27red CG red LM
  • 28. white CG & white LM Μέσος αριθμός εποχών ανά αριθμό νευρώνων 28white CG white LM
  • 29. red CG & red LM Μέσος αριθμός εποχών ανά αριθμό νευρώνων 29red CG red LM
  • 30. white CG & white LM Πρόβλεψη στο test set για το μοντέλο με 50/40 νευρώνες 30white CG white LM
  • 31. red CG & red LM Πρόβλεψη στο test set για το μοντέλο με 20/10 νευρώνες 31red CG red LM
  • 33. Συμπεράσματα  Το δίκτυο δεν εκπαιδεύεται σωστά σε υψηλές και χαμηλές βαθμολογίες λόγω μικρού μεγέθους δείγματος.  Ο αλγόριθμος LM είναι πολύ πιο ταχύτερος από τον CG.  Ο αλγόριθμος LM απαιτεί πολύ μικρότερο αριθμό εποχών σε σχέση με τον CG.  Το ποσοστό του συντελεστή συσχέτισης μεταξύ προβλέψεων και στόχων R (που δίνει η παλινδρόμηση), καθώς και το ποσοστό σφάλματος είναι περίπου ίδιο και για τους δύο αλγόριθμους, στην αντίστοιχη κατηγορία κρασιών. 33
  • 34. 34

Editor's Notes

  1. Σε ένα πολύ-επίπεδο δίκτυο το πρώτο επίπεδο που συναντούν τα δεδομένα εισαγωγής ονομάζεται επίπεδο εισόδου (input layer), το τελευταίο ονομάζεται επίπεδο εξόδου (output layer) και τα ενδιάμεσα ονομάζονται κρυφά επίπεδα (hidden layers). Τα multilayer feedforward backpropagation δίκτυα αποτελούνται από επίπεδα νευρώνων τα οποία συνδέονται μεταξύ τους νευρώνα προς νευρώνα.
  2. Λόγω του ότι επιθυμούμε το δίκτυο να μας επιλύσει μη-γραμμικά προβλήματα, η συνάρτηση μεταφοράς που θα υλοποιεί ο κάθε νευρώνας θα πρέπει να είναι μη-γραμμική.
  3. Η συνάρτηση που χρησιμοποιούμε για την εκπαίδευση του δικτύου είναι η train() και συντάσσεται ως εξής: net = train(net, X, T); όπου net είναι το αρχικοποιημένο δίκτυο, Χ είναι το διάνυσμα εισόδου, και Τ είναι το διάνυσμα του στόχου
  4. Αποδεκτά χαμηλό το σφάλμα
  5. To validation set χρησιμοποιείται για εύρεση της καλύτερης εποχής ώστε να διακόψει την εκπαίδευση. By default οι εποχές είναι 1000. Υπάρχει και η λύση του κατώτατου ορίου σφάλματος. Ο λόγος που επιλέξαμε διακοπή εκπαίδευσης με validation set είναι για να αποφύγουμε την υπερμοντελοποίηση που μειώνει την ικανότητα γενίκευσης.