Optimization of traffic lights timing using Reinforcement learning to minimize car queueing time

ISSEL
ISSELISSEL
1
Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική
μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων
Ιούνιος 2022
Υπολογισμός χρονισμού φωτεινών σηματοδοτών με
Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου
αναμονής των οχημάτων
Εκπόνηση:
Ιατροπούλου Ζαφειρία
ΑΕΜ: 9332
Επιβλέποντες:
Ανδρέας Συμεωνίδης
Αν. Καθηγητής ΑΠΘ
Εμμανουήλ Τσαρδούλιας
Μεταδιδακτορικός ερευνητής
2
Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική
μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων
Ιούνιος 2022
ΕΙΣΑΓΩΓΗ
01
02
06
04
05
03
ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ
ΠΕΙΡΑΜΑΤΑ &
ΑΠΟΤΕΛΕΣΜΑΤΑ
ΣΥΜΠΕΡΑΣΜΑΤΑ &
ΜΕΛΛΟΝΤΙΚΕΣ ΕΠΕΚΤΑΣΕΙΣ
ΑΠΛΗ ΔΙΑΣΤΑΥΡΩΣΗ
ΠΟΛΛΑΠΛΕΣ ΔΙΑΣΤΑΥΡΩΣΕΙΣ
3
Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική
μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων
Ιούνιος 2022
Περιγραφή Προβλήματος
● Στατικοί χρονισμοί φαναριών Μη ισορροπημένη διέλευση οχημάτων
● Μεγάλος όγκος οχημάτων κυρίως σε διασταυρώσεις
● Αρκετή αναμονή επιβατών - Μη παραγωγικός χρόνος
● Αγανάκτηση οδηγών Παραβίαση σημάτων κυκλοφορίας Ατυχήματα
● Πρόβλημα αναμονής σε απομακρυσμένες περιοχές χωρίς κίνηση
4
Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική
μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων
Ιούνιος 2022
Σκοπός της διπλωματικής
Τεχνική Ενισχυτικής
Μάθησης
Εκπαίδευση Αλγορίθμου
Q-Learning
Περιβάλλον Απλής
Διασταύρωσης
Περιβάλλον Πολλαπλών
Διασταυρώσεων
Έξυπνοι Φωτεινοί
Σηματοδότες
Μείωση Χρόνου
Αναμονής
5
Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική
μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων
Ιούνιος 2022
ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ 02
01
06
04
05
03
ΕΙΣΑΓΩΓΗ
ΠΕΙΡΑΜΑΤΑ &
ΑΠΟΤΕΛΕΣΜΑΤΑ
ΣΥΜΠΕΡΑΣΜΑΤΑ &
ΜΕΛΛΟΝΤΙΚΕΣ ΕΠΕΚΤΑΣΕΙΣ
ΑΠΛΗ ΔΙΑΣΤΑΥΡΩΣΗ
ΠΟΛΛΑΠΛΕΣ ΔΙΑΣΤΑΥΡΩΣΕΙΣ
6
Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική
μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων
Ιούνιος 2022
Ενισχυτική Μάθηση - Reinforcement Learning
Βασική Διαδικασία Μάθησης
Βασική Ορολογία Ενισχυτικής Μάθησης
❏ Πράκτορας - Agent : οντότητα που εξερευνά το περιβάλλον και ενεργεί σε αυτό
❏ Ενέργεια - Action : δυνατές κινήσεις που μπορεί να λάβει ο πράκτορας
❏ Περιβάλλον - Environment : ο χώρος που περιβάλλει τον πράκτορα
❏ Κατάσταση - State : κατάσταση που επιστρέφει το περιβάλλον στον πράκτορα σε κάθε βήμα
❏ Ανταμοιβή - Reward : αξιολόγηση του πράκτορα για την απόφαση που έλαβε
3 Παράμετροι Προβλημάτων RL
❏ Policy : δημιουργεί ζεύγη κατάστασης - ενέργειας
και καθορίζει τη συμπεριφορά του πράκτορα
❏ Q-Value : αντιστοιχεί ζεύγη κατάστασης-δράσης
σε τιμές, καθορίζει πόσο καλό είναι ένα ζεύγος
❏ Discount Factor - γ ε [0, 1] : ορίζει τη σημασία
των μελλοντικών ανταμοιβών
Bellman Equation
Προβλήματα RL
Μαρκοβιανή Διαδικασία
Αποφάσεων
Q(s, a) = E [Rt+1 + γ max Q(s´, a´)]
α’
Διατύπωση εξίσωσης στη μορφή Q-Value
7
Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική
μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων
Ιούνιος 2022
Αλγόριθμος Q - Learning
Δύο κύρια στοιχεία για την εξεύρεση σωστών ενεργειών σε δεδομένη
κατάσταση:
❖ Q - Table : πίνακας που περιέχει τα Q-Value. Οι γραμμές αποτελούν
συγκεκριμένες καταστάσεις του περιβάλλοντος και οι στήλες αναφέρονται στις
επιτρεπτές ενέργειες.
❖ Q - Function : Υπολογίζει τις τιμές Q για το πρόβλημα απόφασης του πράκτορα
σε συγκεκριμένες καταστάσεις. Το Q αντιπροσωπεύει την ποιότητα των
ενεργειών.
Χρησιμοποιεί την εξίσωση Bellman και τον κανόνα Temporal Difference για
την ανανέωση των τιμών Q :
Επιλογή ενέργειας
Υπολογισμός Ανταμοιβής
Ανανέωση Q-Table
Εκτέλεση της ενέργειας
Αρχικοποίηση Q-Table
Διάγραμμα Ροής Λειτουργίας της Μεθόδου
Q (s, a) = (1 − α) Q(s, a) + α(R + γmax Q(s´, a´)
new
a´
learned value
old value
α : ρυθμός εκμάθησης
8
Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική
μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων
Ιούνιος 2022
Πολιτική Epsilon Greedy
Πολιτική που καθορίζει την ενέργεια που θα λάβει ο πράκτορας !
Συμβιβασμόςμεταξύ Εξερεύνησης - Εκμετάλλευσης ( Exploration - Exploitation )
● Exploration : εξερεύνηση του περιβάλλοντος επιλέγοντας τυχαία ενέργεια
● Exploitation : εκμετάλλευση της υπάρχουσας γνώσης από τον πίνακα Q
Εξερεύνηση Εκμετάλλευση
Καλύτερη γνωστή
Ενέργεια
Επιλογή τυχαίας
Ενέργειας
ε 1 - ε
Χρονικό Βήμα
Ξεκινά εξερευνώντας το περιβάλλον και μετά από κάποιες επαναλήψεις
εκμεταλλεύεται περισσότερο τις γνώσεις του.
Παράμετροι Πολιτικής
ε : πιθανότητα εξερεύνησης, αρχικά ίση με 1 και φθίνει κατά την εκπαίδευση μέχρι την
ελάχιστη τιμή εmin
εmin : ελάχιστη τιμή της μεταβλητής ε
decay : σταθερή τιμή κοντά στη μονάδα που μειώνει το ε
9
Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική
μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων
Ιούνιος 2022
ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ 02
01
06
04
05
03
ΕΙΣΑΓΩΓΗ
ΠΕΙΡΑΜΑΤΑ &
ΑΠΟΤΕΛΕΣΜΑΤΑ
ΣΥΜΠΕΡΑΣΜΑΤΑ &
ΜΕΛΛΟΝΤΙΚΕΣ ΕΠΕΚΤΑΣΕΙΣ
ΑΠΛΗ ΔΙΑΣΤΑΥΡΩΣΗ
ΠΟΛΛΑΠΛΕΣ ΔΙΑΣΤΑΥΡΩΣΕΙΣ
10
Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική
μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων
Ιούνιος 2022
Οδικό Δίκτυο Απλής Διασταύρωσης
1. Περιβάλλον Εκπαίδευσης
Simulation of Urban MObility - Εργαλείο SUMO
● Δημιουργία των οδικών δικτύων
● Ανάπτυξη διαδρομών για τα οχήματα
● Ορισμός φωτεινών σηματοδοτών
● Προσομοίωση της εκπαίδευσης σε γραφικό περιβάλλον
Βιβλιοθήκη Traci
● Διεπαφή μεταξύ της προσομοίωσης στο SUMO και της Python
● Πρόσβαση στην προσομοίωση και ανάκτηση τιμών αντικειμένων
της κατά την εκτέλεση
11
Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική
μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων
Ιούνιος 2022
Βασικοί Όροι της Τεχνικής RL
1. Πράκτορας - Agent : ο σηματοδότης κάθε διασταύρωσης εκπαιδεύεται ώστε να ενεργεί σωστά
1. Χώρος Καταστάσεων : ένα σύνολο με 4 τιμές που αντιπροσωπεύουν την πυκνότητα οχημάτων
στις λωρίδες. Οι τιμές είναι ακέραιες και ανήκουν στο σύνολο [0, 9].
1. Χώρος Ενεργειών : ένα διακριτό σύνολο δύο τιμών [0, 1], αποτελεί τις 2 δυνατές φάσεις του
σηματοδότη
1. Ανταμοιβή : συνάρτηση 4 μεταβλητών, οι οποίες αποτελούν άλλες ανταμοιβές και προκύπτουν
από τη μείωση ή αύξηση κάποιων χαρακτηριστικών (π.χ. οχήματα που διέσχισαν τη διασταύρωση)
1. Q-Table : dictionary που αποθηκεύει τιμές Q για ζεύγη κατάστασης-δράσης. Ένα αντικείμενο έχει
τη μορφή : { (2, 4, 0, 5) : [0.364, -0.642] }
s Q(s, α0 ) Q(s, α1 )
12
Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική
μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων
Ιούνιος 2022
Εκπαίδευση Συστήματος Απλής Διασταύρωσης
Τιμές Παραμέτρων ύστερα
από μεθόδους Βελτιστοποίησης
11.7075 sec 0.2939
Μέσος Χρόνος
Αναμονής Τυπική Απόκλιση
Παράμετρος
Βέλτιστη
Τιμή
α 0.0695
γ 0.553
decay 0.999
εmin 0.0003
Εκπαίδευση Συστήματος σε 40 επεισόδια
Αξιολόγηση Μοντέλου σε 10 Προσομοιώσεις
13
Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική
μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων
Ιούνιος 2022
ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ 02
01
06
04
05
03
ΕΙΣΑΓΩΓΗ
ΠΕΙΡΑΜΑΤΑ &
ΑΠΟΤΕΛΕΣΜΑΤΑ
ΣΥΜΠΕΡΑΣΜΑΤΑ &
ΜΕΛΛΟΝΤΙΚΕΣ ΕΠΕΚΤΑΣΕΙΣ
ΑΠΛΗ ΔΙΑΣΤΑΥΡΩΣΗ
ΠΟΛΛΑΠΛΕΣ ΔΙΑΣΤΑΥΡΩΣΕΙΣ
14
Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική
μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων
Ιούνιος 2022
Οδικό Δίκτυο 2 Διασταυρώσεων
Περιβάλλον Εκπαίδευσης
Παράμετρος
Βέλτιστη
Τιμή
α 0.036
γ 0.2
decay 0.999
εmin 0.0002
Νέο Πρόβλημα : Πολυπρακτορικό σύστημα, οι πράκτορες επικοινωνούν.
Απαιτείται βελτιστοποίηση παραμέτρων για τα πολυπρακτορικά συστήματα N =2, 4, 6
Βασικό Σύστημα:
● 2 πράκτορες, κάθε σηματοδότης
εκπαιδεύεται ξεχωριστά
● Ίδιος χώρος ενεργειών
● χώρος κατάστασης ίσος με 5,
παρατηρεί επιπλέον τη φάση του
γειτονικού σηματοδότη.
● Κάθε πράκτορας δημιουργεί το δικό
του πίνακα Q
15
Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική
μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων
Ιούνιος 2022
Εκπαίδευση Συστήματος 2 Διασταυρώσεων
Μέσος Χρόνος
Αναμονής
Τυπική Απόκλιση
8.399 sec 2.0714
Μέσος Χρόνος
Αναμονής
Τυπική Απόκλιση
3.2985 sec 0.0722
Σύστημα με έναν Πράκτορα
Χώρος Ενεργειών 4
Χώρος Καταστάσεων 10
Πολυπρακτορικό Σύστημα με Δύο
Πράκτορες
Χώρος Ενεργειών 2
Χώρος Καταστάσεων 5
Καλύτερο Μοντέλο
Τα πολυπλοκότερα συστήματα πετυχαίνουν
χαμηλότερη απόδοση για ίδιο χρόνο εκπαίδευσης
16
Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική
μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων
Ιούνιος 2022
Οδικό Δίκτυο 4 Διασταυρώσεων
Περιβάλλον Εκπαίδευσης
● Πολυπρακτορικό σύστημα με 4 πράκτορες
● Ίδιος χώρος ενεργειών ίσος με 2 τιμές
● Ως χώρο κατάστασης δέχεται ένα σύνολο 6 τιμών, 4 τιμές
που καθορίζουν τα οχήματα στις λωρίδες και 2 τιμές που
δείχνουν τη φάση των δύο γειτονικών σηματοδοτών
● Η απόδοση του μοντέλου υπολογίζεται συνολικά από την
εκπαίδευση όλων των πρακτόρων
● 4 πίνακες Q, ένας για κάθε πράκτορα.
17
Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική
μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων
Ιούνιος 2022
Εκπαίδευση Συστήματος 4 Διασταυρώσεων
Μέσος Χρόνος
Αναμονής
Τυπική Απόκλιση
4.9963 sec 0.0615
Εκπαίδευση Συστήματος σε 40 επεισόδια
Αξιολόγηση Μοντέλου σε 10 Προσομοιώσεις
18
Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική
μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων
Ιούνιος 2022
Οδικό Δίκτυο 6 Διασταυρώσεων
Περιβάλλον Εκπαίδευσης
● 6 πράκτορες - Ίδιος χώρος ενεργειών ίσος με 2 τιμές
● Έχουμε δύο χώρους καταστάσεων με 6 και 7 τιμές. Οι δύο
μεσαίοι σηματοδότες δέχονται 7 τιμές ως παρατήρηση
καθώς έχουν ένα επιπλέον γειτονικό σηματοδότη
● Η απόδοση του μοντέλου υπολογίζεται συνολικά από την
εκπαίδευση όλων των πρακτόρων
● 6 πίνακες Q, ένας για κάθε πράκτορα.
19
Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική
μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων
Ιούνιος 2022
Εκπαίδευση Συστήματος 6 Διασταυρώσεων
Μέσος Χρόνος
Αναμονής
Τυπική Απόκλιση
11.2477 sec 0.7036
Εκπαίδευση Συστήματος σε 40 επεισόδια
Αξιολόγηση Μοντέλου σε 10 Προσομοιώσεις
20
Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική
μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων
Ιούνιος 2022
ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ 02
01
06
04
05
03
ΕΙΣΑΓΩΓΗ
ΠΕΙΡΑΜΑΤΑ &
ΑΠΟΤΕΛΕΣΜΑΤΑ
ΣΥΜΠΕΡΑΣΜΑΤΑ &
ΜΕΛΛΟΝΤΙΚΕΣ ΕΠΕΚΤΑΣΕΙΣ
ΑΠΛΗ ΔΙΑΣΤΑΥΡΩΣΗ
ΠΟΛΛΑΠΛΕΣ ΔΙΑΣΤΑΥΡΩΣΕΙΣ
21
Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική
μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων
Ιούνιος 2022
Πειράματα
❖ 1ο Πείραμα
Αξιολόγηση μοντέλο σε περισσότερη κίνηση από αυτήν που εκπαιδεύτηκε
Χρήση εμπειρίας εκπαιδευμένων μοντέλων σε πιο πολύπλοκα συστήματα
❖ 2ο Πείραμα
Εφαρμογή Q-Table από την εκπαίδευση της απλής διασταύρωσης σε συστήματα με Ν = 2, 4, 6
❖ 3ο Πείραμα
Εφαρμογή Q-Table από την εκπαίδευση της διπλής διασταύρωσης σε συστήματα με Ν = 4, 6
22
Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική
μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων
Ιούνιος 2022
93.2334
11.7075 14.2865
47.4923
84.4950
23
Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική
μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων
Ιούνιος 2022
76.2765
3.2985 4.2309
7.1760
30.4255
14.3005
24
Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική
μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων
Ιούνιος 2022
113.0369
4.9963 6.2858 9.9877
37.1708
46.9155
18.3856
25
Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική
μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων
Ιούνιος 2022
187.0923
11.2477 14.7232
30.0001
64.7282
22.6531
26
Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική
μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων
Ιούνιος 2022
ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ 02
01
06
04
05
03
ΕΙΣΑΓΩΓΗ
ΠΕΙΡΑΜΑΤΑ &
ΑΠΟΤΕΛΕΣΜΑΤΑ
ΣΥΜΠΕΡΑΣΜΑΤΑ &
ΜΕΛΛΟΝΤΙΚΕΣ ΕΠΕΚΤΑΣΕΙΣ
ΑΠΛΗ ΔΙΑΣΤΑΥΡΩΣΗ
ΠΟΛΛΑΠΛΕΣ ΔΙΑΣΤΑΥΡΩΣΕΙΣ
27
Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική
μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων
Ιούνιος 2022
Γενικά Συμπεράσματα
Κλιμάκωση πολυπλοκότητας με το χώρο κατάστασης και τον αριθμό των πρακτόρων
Ο χρόνος εκπαίδευσης εξαρτάται από την πολυπλοκότητα
ΒΕΛΤΙΣΤΟ σύστημα! Πραγματοποίηση εκπαίδευσης στο περιβάλλον του
Εκπαίδευση απλών συστημάτων και εφαρμογή σε πολυπλοκότερα
Μείωση χρόνου εκπαίδευσης - Αποδοτικό σύστημα
Τα πολυπρακτορικά συστήματα αποδίδουν καλύτερα από αυτά με έναν πράκτορα
Εύκολη κλιμάκωση και προσαρμοστικότητα
Συμβιβασμός μεταξύ βέλτιστης λύσης και χρόνου εκπαίδευσης!
28
Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική
μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων
Ιούνιος 2022
Μελλοντικές Επεκτάσεις
Πολυπλοκότερα Οδικά Δίκτυα
Διαφοροποίηση Χώρου
Ενεργειών
Μετατροπή
Συνάρτησης Ανταμοιβής
Μείωση Πολυπλοκότητας
1 2
3
Εκπαίδευση Εξερευνώντας
Περισσότερες Καταστάσεις
Ευχαριστώ πολύ για την προσοχή σας!
Ερωτήσεις;
1 of 29

Recommended

Gougousis Dimitris: Development of an automated machine learning system for p... by
Gougousis Dimitris: Development of an automated machine learning system for p...Gougousis Dimitris: Development of an automated machine learning system for p...
Gougousis Dimitris: Development of an automated machine learning system for p...Manos Tsardoulias
63 views33 slides
Basiliki Strouthopoulou by
Basiliki StrouthopoulouBasiliki Strouthopoulou
Basiliki StrouthopoulouISSEL
191 views40 slides
ΟΙΚΟΝΟΜΕΤΡΙΑ-ΠΑΡΟΥΣΙΑΣΗ by
ΟΙΚΟΝΟΜΕΤΡΙΑ-ΠΑΡΟΥΣΙΑΣΗΟΙΚΟΝΟΜΕΤΡΙΑ-ΠΑΡΟΥΣΙΑΣΗ
ΟΙΚΟΝΟΜΕΤΡΙΑ-ΠΑΡΟΥΣΙΑΣΗIlias Pappas
885 views18 slides
Punctual fault identification through Machine Learning techniques by
Punctual fault identification through Machine Learning techniquesPunctual fault identification through Machine Learning techniques
Punctual fault identification through Machine Learning techniquesISSEL
64 views30 slides
Έγκαιρη ταυτοποίηση βλαβών με αλγόριθμους Μηχανικής Mάθησης by
Έγκαιρη ταυτοποίηση βλαβών με αλγόριθμους Μηχανικής MάθησηςΈγκαιρη ταυτοποίηση βλαβών με αλγόριθμους Μηχανικής Mάθησης
Έγκαιρη ταυτοποίηση βλαβών με αλγόριθμους Μηχανικής MάθησηςISSEL
77 views30 slides
Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων για την Εξαγωγή Προτύπων Διόρθωσης σε Σφ... by
Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων για την Εξαγωγή Προτύπων Διόρθωσης σε Σφ...Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων για την Εξαγωγή Προτύπων Διόρθωσης σε Σφ...
Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων για την Εξαγωγή Προτύπων Διόρθωσης σε Σφ...ISSEL
53 views32 slides

More Related Content

Similar to Optimization of traffic lights timing using Reinforcement learning to minimize car queueing time

Presentation labarotary automatic control ii 2018 by
Presentation labarotary automatic control ii  2018Presentation labarotary automatic control ii  2018
Presentation labarotary automatic control ii 2018Manolis Doudounakis
66 views68 slides
Energy Audits gr 8/3/2022 by
Energy Audits gr 8/3/2022Energy Audits gr 8/3/2022
Energy Audits gr 8/3/2022NomikosStrigkos
122 views25 slides
Μαρία Κωτούζα 7714 by
Μαρία Κωτούζα 7714Μαρία Κωτούζα 7714
Μαρία Κωτούζα 7714ISSEL
442 views39 slides
αλγόριθμοι άμεσης απόκρισης_καραγιάννης_2009 by
αλγόριθμοι άμεσης απόκρισης_καραγιάννης_2009αλγόριθμοι άμεσης απόκρισης_καραγιάννης_2009
αλγόριθμοι άμεσης απόκρισης_καραγιάννης_2009jzkor
267 views83 slides
Labnotes 2922 by
Labnotes 2922Labnotes 2922
Labnotes 2922Manolis Doudounakis
420 views49 slides
VET4SBO Level 2 module 2 - unit 1 - v0.9 gr by
VET4SBO Level 2   module 2 - unit 1 - v0.9 grVET4SBO Level 2   module 2 - unit 1 - v0.9 gr
VET4SBO Level 2 module 2 - unit 1 - v0.9 grKarel Van Isacker
57 views31 slides

Similar to Optimization of traffic lights timing using Reinforcement learning to minimize car queueing time(11)

Μαρία Κωτούζα 7714 by ISSEL
Μαρία Κωτούζα 7714Μαρία Κωτούζα 7714
Μαρία Κωτούζα 7714
ISSEL442 views
αλγόριθμοι άμεσης απόκρισης_καραγιάννης_2009 by jzkor
αλγόριθμοι άμεσης απόκρισης_καραγιάννης_2009αλγόριθμοι άμεσης απόκρισης_καραγιάννης_2009
αλγόριθμοι άμεσης απόκρισης_καραγιάννης_2009
jzkor267 views
VET4SBO Level 2 module 2 - unit 1 - v0.9 gr by Karel Van Isacker
VET4SBO Level 2   module 2 - unit 1 - v0.9 grVET4SBO Level 2   module 2 - unit 1 - v0.9 gr
VET4SBO Level 2 module 2 - unit 1 - v0.9 gr
∆ηµιουργία συµπεριφορών αυτόνοµου αυτοκινήτου µε χρήση προσοµοιωτή και απλών ... by ISSEL
∆ηµιουργία συµπεριφορών αυτόνοµου αυτοκινήτου µε χρήση προσοµοιωτή και απλών ...∆ηµιουργία συµπεριφορών αυτόνοµου αυτοκινήτου µε χρήση προσοµοιωτή και απλών ...
∆ηµιουργία συµπεριφορών αυτόνοµου αυτοκινήτου µε χρήση προσοµοιωτή και απλών ...
ISSEL30 views
Camera-driven behavioral planning for autonomous vehicles on the CARLA Simulator by ISSEL
Camera-driven behavioral planning for autonomous vehicles on the CARLA SimulatorCamera-driven behavioral planning for autonomous vehicles on the CARLA Simulator
Camera-driven behavioral planning for autonomous vehicles on the CARLA Simulator
ISSEL7 views
Γεροκώστα by ISSEL
ΓεροκώσταΓεροκώστα
Γεροκώστα
ISSEL119 views
Evaluating code readability models in incremental changes and developing a ne... by ISSEL
Evaluating code readability models in incremental changes and developing a ne...Evaluating code readability models in incremental changes and developing a ne...
Evaluating code readability models in incremental changes and developing a ne...
ISSEL11 views
Αξιολόγησvη μοντέλων αναγνωσvιμότητας κώδικα σvε μικρές μεταβολές και κατασvκ... by ISSEL
Αξιολόγησvη μοντέλων αναγνωσvιμότητας κώδικα σvε μικρές μεταβολές και κατασvκ...Αξιολόγησvη μοντέλων αναγνωσvιμότητας κώδικα σvε μικρές μεταβολές και κατασvκ...
Αξιολόγησvη μοντέλων αναγνωσvιμότητας κώδικα σvε μικρές μεταβολές και κατασvκ...
ISSEL22 views

More from ISSEL

Camera-based localization of annotated objects in indoor environments by
Camera-based localization of annotated objects in indoor environmentsCamera-based localization of annotated objects in indoor environments
Camera-based localization of annotated objects in indoor environmentsISSEL
12 views38 slides
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ... by
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...ISSEL
6 views38 slides
Design and implementation of an automation mechanism to automatically develop... by
Design and implementation of an automation mechanism to automatically develop...Design and implementation of an automation mechanism to automatically develop...
Design and implementation of an automation mechanism to automatically develop...ISSEL
4 views17 slides
ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΑΥΤΟΜΑΤΟΠΟΙΗΣΗΣ ΤΗΣ ΑΝΑΠΤΥΞΗΣ ΓΡΑΦΙΚΩΝ ΕΝΤΟΛ... by
ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΑΥΤΟΜΑΤΟΠΟΙΗΣΗΣ ΤΗΣ ΑΝΑΠΤΥΞΗΣ ΓΡΑΦΙΚΩΝ ΕΝΤΟΛ...ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΑΥΤΟΜΑΤΟΠΟΙΗΣΗΣ ΤΗΣ ΑΝΑΠΤΥΞΗΣ ΓΡΑΦΙΚΩΝ ΕΝΤΟΛ...
ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΑΥΤΟΜΑΤΟΠΟΙΗΣΗΣ ΤΗΣ ΑΝΑΠΤΥΞΗΣ ΓΡΑΦΙΚΩΝ ΕΝΤΟΛ...ISSEL
6 views17 slides
Static Analysis of Python code and Identification of Potential Security Vulne... by
Static Analysis of Python code and Identification of Potential Security Vulne...Static Analysis of Python code and Identification of Potential Security Vulne...
Static Analysis of Python code and Identification of Potential Security Vulne...ISSEL
8 views16 slides
Στατική Ανάλυση Κώδικα Python και Αναγνώριση Πιθανών Ευπαθειών Ασφαλείας για ... by
Στατική Ανάλυση Κώδικα Python και Αναγνώριση Πιθανών Ευπαθειών Ασφαλείας για ...Στατική Ανάλυση Κώδικα Python και Αναγνώριση Πιθανών Ευπαθειών Ασφαλείας για ...
Στατική Ανάλυση Κώδικα Python και Αναγνώριση Πιθανών Ευπαθειών Ασφαλείας για ...ISSEL
26 views27 slides

More from ISSEL(20)

Camera-based localization of annotated objects in indoor environments by ISSEL
Camera-based localization of annotated objects in indoor environmentsCamera-based localization of annotated objects in indoor environments
Camera-based localization of annotated objects in indoor environments
ISSEL12 views
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ... by ISSEL
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...
ISSEL6 views
Design and implementation of an automation mechanism to automatically develop... by ISSEL
Design and implementation of an automation mechanism to automatically develop...Design and implementation of an automation mechanism to automatically develop...
Design and implementation of an automation mechanism to automatically develop...
ISSEL4 views
ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΑΥΤΟΜΑΤΟΠΟΙΗΣΗΣ ΤΗΣ ΑΝΑΠΤΥΞΗΣ ΓΡΑΦΙΚΩΝ ΕΝΤΟΛ... by ISSEL
ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΑΥΤΟΜΑΤΟΠΟΙΗΣΗΣ ΤΗΣ ΑΝΑΠΤΥΞΗΣ ΓΡΑΦΙΚΩΝ ΕΝΤΟΛ...ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΑΥΤΟΜΑΤΟΠΟΙΗΣΗΣ ΤΗΣ ΑΝΑΠΤΥΞΗΣ ΓΡΑΦΙΚΩΝ ΕΝΤΟΛ...
ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΑΥΤΟΜΑΤΟΠΟΙΗΣΗΣ ΤΗΣ ΑΝΑΠΤΥΞΗΣ ΓΡΑΦΙΚΩΝ ΕΝΤΟΛ...
ISSEL6 views
Static Analysis of Python code and Identification of Potential Security Vulne... by ISSEL
Static Analysis of Python code and Identification of Potential Security Vulne...Static Analysis of Python code and Identification of Potential Security Vulne...
Static Analysis of Python code and Identification of Potential Security Vulne...
ISSEL8 views
Στατική Ανάλυση Κώδικα Python και Αναγνώριση Πιθανών Ευπαθειών Ασφαλείας για ... by ISSEL
Στατική Ανάλυση Κώδικα Python και Αναγνώριση Πιθανών Ευπαθειών Ασφαλείας για ...Στατική Ανάλυση Κώδικα Python και Αναγνώριση Πιθανών Ευπαθειών Ασφαλείας για ...
Στατική Ανάλυση Κώδικα Python και Αναγνώριση Πιθανών Ευπαθειών Ασφαλείας για ...
ISSEL26 views
Design and Development of an Authorization and Access Control Mechanism for C... by ISSEL
Design and Development of an Authorization and Access Control Mechanism for C...Design and Development of an Authorization and Access Control Mechanism for C...
Design and Development of an Authorization and Access Control Mechanism for C...
ISSEL13 views
Σχεδίαση και Ανάπτυξη Μηχανισμού Εξουσιοδότησης και Ελέγχου Πρόσβασης σε Συνο... by ISSEL
Σχεδίαση και Ανάπτυξη Μηχανισμού Εξουσιοδότησης και Ελέγχου Πρόσβασης σε Συνο...Σχεδίαση και Ανάπτυξη Μηχανισμού Εξουσιοδότησης και Ελέγχου Πρόσβασης σε Συνο...
Σχεδίαση και Ανάπτυξη Μηχανισμού Εξουσιοδότησης και Ελέγχου Πρόσβασης σε Συνο...
ISSEL19 views
Analysis and profiling of developer profiles using data mining techniques fro... by ISSEL
Analysis and profiling of developer profiles using data mining techniques fro...Analysis and profiling of developer profiles using data mining techniques fro...
Analysis and profiling of developer profiles using data mining techniques fro...
ISSEL3 views
Ανάλυση και μοντελοποίηση προφίλ προγραμματιστών μέσω τεχνικών εξόρυξης γνώση... by ISSEL
Ανάλυση και μοντελοποίηση προφίλ προγραμματιστών μέσω τεχνικών εξόρυξης γνώση...Ανάλυση και μοντελοποίηση προφίλ προγραμματιστών μέσω τεχνικών εξόρυξης γνώση...
Ανάλυση και μοντελοποίηση προφίλ προγραμματιστών μέσω τεχνικών εξόρυξης γνώση...
ISSEL8 views
TOWARDS AN AUTOMATED SOURCE CODE FORMATTING SYSTEM by ISSEL
TOWARDS AN AUTOMATED SOURCE CODE FORMATTING SYSTEMTOWARDS AN AUTOMATED SOURCE CODE FORMATTING SYSTEM
TOWARDS AN AUTOMATED SOURCE CODE FORMATTING SYSTEM
ISSEL3 views
ΔΗΜΙΟΥΡΓΙΑ ΣΥΣΤΗΜΑΤΟΣ ΓΙΑ ΤΗΝ ΠΑΡΟΧΗ ΠΡΟΤΑΣΕΩΝ ΒΕΛΤΙΩΣΗΣ ΤΗΣ ΜΟΡΦΟΠΟΙΗΣΗΣ ΠΗΓ... by ISSEL
ΔΗΜΙΟΥΡΓΙΑ ΣΥΣΤΗΜΑΤΟΣ ΓΙΑ ΤΗΝ ΠΑΡΟΧΗ ΠΡΟΤΑΣΕΩΝ ΒΕΛΤΙΩΣΗΣ ΤΗΣ ΜΟΡΦΟΠΟΙΗΣΗΣ ΠΗΓ...ΔΗΜΙΟΥΡΓΙΑ ΣΥΣΤΗΜΑΤΟΣ ΓΙΑ ΤΗΝ ΠΑΡΟΧΗ ΠΡΟΤΑΣΕΩΝ ΒΕΛΤΙΩΣΗΣ ΤΗΣ ΜΟΡΦΟΠΟΙΗΣΗΣ ΠΗΓ...
ΔΗΜΙΟΥΡΓΙΑ ΣΥΣΤΗΜΑΤΟΣ ΓΙΑ ΤΗΝ ΠΑΡΟΧΗ ΠΡΟΤΑΣΕΩΝ ΒΕΛΤΙΩΣΗΣ ΤΗΣ ΜΟΡΦΟΠΟΙΗΣΗΣ ΠΗΓ...
ISSEL11 views
System Development for Prediction of Static Analysis Metrics of Source Code by ISSEL
System Development for Prediction of Static Analysis Metrics of Source CodeSystem Development for Prediction of Static Analysis Metrics of Source Code
System Development for Prediction of Static Analysis Metrics of Source Code
ISSEL6 views
Ανάπτυξη συστήματος πρόβλεψης της εξέλιξης των μετρικών στατικής ανάλυσης πηγ... by ISSEL
Ανάπτυξη συστήματος πρόβλεψης της εξέλιξης των μετρικών στατικής ανάλυσης πηγ...Ανάπτυξη συστήματος πρόβλεψης της εξέλιξης των μετρικών στατικής ανάλυσης πηγ...
Ανάπτυξη συστήματος πρόβλεψης της εξέλιξης των μετρικών στατικής ανάλυσης πηγ...
ISSEL11 views
Micro Front-ends and Microservices Architecture in Web Application Development by ISSEL
Micro Front-ends and Microservices Architecture in Web Application DevelopmentMicro Front-ends and Microservices Architecture in Web Application Development
Micro Front-ends and Microservices Architecture in Web Application Development
ISSEL8 views
Η αρχιτεκτονική των Microservices και Micro Front-ends στην Ανάπτυξη Εφαρµογώ... by ISSEL
Η αρχιτεκτονική των Microservices και Micro Front-ends στην Ανάπτυξη Εφαρµογώ...Η αρχιτεκτονική των Microservices και Micro Front-ends στην Ανάπτυξη Εφαρµογώ...
Η αρχιτεκτονική των Microservices και Micro Front-ends στην Ανάπτυξη Εφαρµογώ...
ISSEL19 views
Indoor localization using wireless networks by ISSEL
Indoor localization using wireless networksIndoor localization using wireless networks
Indoor localization using wireless networks
ISSEL5 views
Εντοπισμός θέσης σε εσωτερικούς χώρους με χρήση ασύρματων δικτύων by ISSEL
Εντοπισμός θέσης σε εσωτερικούς χώρους με χρήση ασύρματων δικτύωνΕντοπισμός θέσης σε εσωτερικούς χώρους με χρήση ασύρματων δικτύων
Εντοπισμός θέσης σε εσωτερικούς χώρους με χρήση ασύρματων δικτύων
ISSEL10 views
Design and implementation of a big data architecture for storage, real-time p... by ISSEL
Design and implementation of a big data architecture for storage, real-time p...Design and implementation of a big data architecture for storage, real-time p...
Design and implementation of a big data architecture for storage, real-time p...
ISSEL9 views
Σχεδιασµός και υλοποίηση µιας αρχιτεκτονικής µεγάλων δεδοµένων για την αποθήκ... by ISSEL
Σχεδιασµός και υλοποίηση µιας αρχιτεκτονικής µεγάλων δεδοµένων για την αποθήκ...Σχεδιασµός και υλοποίηση µιας αρχιτεκτονικής µεγάλων δεδοµένων για την αποθήκ...
Σχεδιασµός και υλοποίηση µιας αρχιτεκτονικής µεγάλων δεδοµένων για την αποθήκ...
ISSEL16 views

Optimization of traffic lights timing using Reinforcement learning to minimize car queueing time

  • 1. 1 Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων Ιούνιος 2022 Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων Εκπόνηση: Ιατροπούλου Ζαφειρία ΑΕΜ: 9332 Επιβλέποντες: Ανδρέας Συμεωνίδης Αν. Καθηγητής ΑΠΘ Εμμανουήλ Τσαρδούλιας Μεταδιδακτορικός ερευνητής
  • 2. 2 Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων Ιούνιος 2022 ΕΙΣΑΓΩΓΗ 01 02 06 04 05 03 ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ ΠΕΙΡΑΜΑΤΑ & ΑΠΟΤΕΛΕΣΜΑΤΑ ΣΥΜΠΕΡΑΣΜΑΤΑ & ΜΕΛΛΟΝΤΙΚΕΣ ΕΠΕΚΤΑΣΕΙΣ ΑΠΛΗ ΔΙΑΣΤΑΥΡΩΣΗ ΠΟΛΛΑΠΛΕΣ ΔΙΑΣΤΑΥΡΩΣΕΙΣ
  • 3. 3 Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων Ιούνιος 2022 Περιγραφή Προβλήματος ● Στατικοί χρονισμοί φαναριών Μη ισορροπημένη διέλευση οχημάτων ● Μεγάλος όγκος οχημάτων κυρίως σε διασταυρώσεις ● Αρκετή αναμονή επιβατών - Μη παραγωγικός χρόνος ● Αγανάκτηση οδηγών Παραβίαση σημάτων κυκλοφορίας Ατυχήματα ● Πρόβλημα αναμονής σε απομακρυσμένες περιοχές χωρίς κίνηση
  • 4. 4 Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων Ιούνιος 2022 Σκοπός της διπλωματικής Τεχνική Ενισχυτικής Μάθησης Εκπαίδευση Αλγορίθμου Q-Learning Περιβάλλον Απλής Διασταύρωσης Περιβάλλον Πολλαπλών Διασταυρώσεων Έξυπνοι Φωτεινοί Σηματοδότες Μείωση Χρόνου Αναμονής
  • 5. 5 Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων Ιούνιος 2022 ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ 02 01 06 04 05 03 ΕΙΣΑΓΩΓΗ ΠΕΙΡΑΜΑΤΑ & ΑΠΟΤΕΛΕΣΜΑΤΑ ΣΥΜΠΕΡΑΣΜΑΤΑ & ΜΕΛΛΟΝΤΙΚΕΣ ΕΠΕΚΤΑΣΕΙΣ ΑΠΛΗ ΔΙΑΣΤΑΥΡΩΣΗ ΠΟΛΛΑΠΛΕΣ ΔΙΑΣΤΑΥΡΩΣΕΙΣ
  • 6. 6 Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων Ιούνιος 2022 Ενισχυτική Μάθηση - Reinforcement Learning Βασική Διαδικασία Μάθησης Βασική Ορολογία Ενισχυτικής Μάθησης ❏ Πράκτορας - Agent : οντότητα που εξερευνά το περιβάλλον και ενεργεί σε αυτό ❏ Ενέργεια - Action : δυνατές κινήσεις που μπορεί να λάβει ο πράκτορας ❏ Περιβάλλον - Environment : ο χώρος που περιβάλλει τον πράκτορα ❏ Κατάσταση - State : κατάσταση που επιστρέφει το περιβάλλον στον πράκτορα σε κάθε βήμα ❏ Ανταμοιβή - Reward : αξιολόγηση του πράκτορα για την απόφαση που έλαβε 3 Παράμετροι Προβλημάτων RL ❏ Policy : δημιουργεί ζεύγη κατάστασης - ενέργειας και καθορίζει τη συμπεριφορά του πράκτορα ❏ Q-Value : αντιστοιχεί ζεύγη κατάστασης-δράσης σε τιμές, καθορίζει πόσο καλό είναι ένα ζεύγος ❏ Discount Factor - γ ε [0, 1] : ορίζει τη σημασία των μελλοντικών ανταμοιβών Bellman Equation Προβλήματα RL Μαρκοβιανή Διαδικασία Αποφάσεων Q(s, a) = E [Rt+1 + γ max Q(s´, a´)] α’ Διατύπωση εξίσωσης στη μορφή Q-Value
  • 7. 7 Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων Ιούνιος 2022 Αλγόριθμος Q - Learning Δύο κύρια στοιχεία για την εξεύρεση σωστών ενεργειών σε δεδομένη κατάσταση: ❖ Q - Table : πίνακας που περιέχει τα Q-Value. Οι γραμμές αποτελούν συγκεκριμένες καταστάσεις του περιβάλλοντος και οι στήλες αναφέρονται στις επιτρεπτές ενέργειες. ❖ Q - Function : Υπολογίζει τις τιμές Q για το πρόβλημα απόφασης του πράκτορα σε συγκεκριμένες καταστάσεις. Το Q αντιπροσωπεύει την ποιότητα των ενεργειών. Χρησιμοποιεί την εξίσωση Bellman και τον κανόνα Temporal Difference για την ανανέωση των τιμών Q : Επιλογή ενέργειας Υπολογισμός Ανταμοιβής Ανανέωση Q-Table Εκτέλεση της ενέργειας Αρχικοποίηση Q-Table Διάγραμμα Ροής Λειτουργίας της Μεθόδου Q (s, a) = (1 − α) Q(s, a) + α(R + γmax Q(s´, a´) new a´ learned value old value α : ρυθμός εκμάθησης
  • 8. 8 Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων Ιούνιος 2022 Πολιτική Epsilon Greedy Πολιτική που καθορίζει την ενέργεια που θα λάβει ο πράκτορας ! Συμβιβασμόςμεταξύ Εξερεύνησης - Εκμετάλλευσης ( Exploration - Exploitation ) ● Exploration : εξερεύνηση του περιβάλλοντος επιλέγοντας τυχαία ενέργεια ● Exploitation : εκμετάλλευση της υπάρχουσας γνώσης από τον πίνακα Q Εξερεύνηση Εκμετάλλευση Καλύτερη γνωστή Ενέργεια Επιλογή τυχαίας Ενέργειας ε 1 - ε Χρονικό Βήμα Ξεκινά εξερευνώντας το περιβάλλον και μετά από κάποιες επαναλήψεις εκμεταλλεύεται περισσότερο τις γνώσεις του. Παράμετροι Πολιτικής ε : πιθανότητα εξερεύνησης, αρχικά ίση με 1 και φθίνει κατά την εκπαίδευση μέχρι την ελάχιστη τιμή εmin εmin : ελάχιστη τιμή της μεταβλητής ε decay : σταθερή τιμή κοντά στη μονάδα που μειώνει το ε
  • 9. 9 Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων Ιούνιος 2022 ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ 02 01 06 04 05 03 ΕΙΣΑΓΩΓΗ ΠΕΙΡΑΜΑΤΑ & ΑΠΟΤΕΛΕΣΜΑΤΑ ΣΥΜΠΕΡΑΣΜΑΤΑ & ΜΕΛΛΟΝΤΙΚΕΣ ΕΠΕΚΤΑΣΕΙΣ ΑΠΛΗ ΔΙΑΣΤΑΥΡΩΣΗ ΠΟΛΛΑΠΛΕΣ ΔΙΑΣΤΑΥΡΩΣΕΙΣ
  • 10. 10 Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων Ιούνιος 2022 Οδικό Δίκτυο Απλής Διασταύρωσης 1. Περιβάλλον Εκπαίδευσης Simulation of Urban MObility - Εργαλείο SUMO ● Δημιουργία των οδικών δικτύων ● Ανάπτυξη διαδρομών για τα οχήματα ● Ορισμός φωτεινών σηματοδοτών ● Προσομοίωση της εκπαίδευσης σε γραφικό περιβάλλον Βιβλιοθήκη Traci ● Διεπαφή μεταξύ της προσομοίωσης στο SUMO και της Python ● Πρόσβαση στην προσομοίωση και ανάκτηση τιμών αντικειμένων της κατά την εκτέλεση
  • 11. 11 Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων Ιούνιος 2022 Βασικοί Όροι της Τεχνικής RL 1. Πράκτορας - Agent : ο σηματοδότης κάθε διασταύρωσης εκπαιδεύεται ώστε να ενεργεί σωστά 1. Χώρος Καταστάσεων : ένα σύνολο με 4 τιμές που αντιπροσωπεύουν την πυκνότητα οχημάτων στις λωρίδες. Οι τιμές είναι ακέραιες και ανήκουν στο σύνολο [0, 9]. 1. Χώρος Ενεργειών : ένα διακριτό σύνολο δύο τιμών [0, 1], αποτελεί τις 2 δυνατές φάσεις του σηματοδότη 1. Ανταμοιβή : συνάρτηση 4 μεταβλητών, οι οποίες αποτελούν άλλες ανταμοιβές και προκύπτουν από τη μείωση ή αύξηση κάποιων χαρακτηριστικών (π.χ. οχήματα που διέσχισαν τη διασταύρωση) 1. Q-Table : dictionary που αποθηκεύει τιμές Q για ζεύγη κατάστασης-δράσης. Ένα αντικείμενο έχει τη μορφή : { (2, 4, 0, 5) : [0.364, -0.642] } s Q(s, α0 ) Q(s, α1 )
  • 12. 12 Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων Ιούνιος 2022 Εκπαίδευση Συστήματος Απλής Διασταύρωσης Τιμές Παραμέτρων ύστερα από μεθόδους Βελτιστοποίησης 11.7075 sec 0.2939 Μέσος Χρόνος Αναμονής Τυπική Απόκλιση Παράμετρος Βέλτιστη Τιμή α 0.0695 γ 0.553 decay 0.999 εmin 0.0003 Εκπαίδευση Συστήματος σε 40 επεισόδια Αξιολόγηση Μοντέλου σε 10 Προσομοιώσεις
  • 13. 13 Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων Ιούνιος 2022 ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ 02 01 06 04 05 03 ΕΙΣΑΓΩΓΗ ΠΕΙΡΑΜΑΤΑ & ΑΠΟΤΕΛΕΣΜΑΤΑ ΣΥΜΠΕΡΑΣΜΑΤΑ & ΜΕΛΛΟΝΤΙΚΕΣ ΕΠΕΚΤΑΣΕΙΣ ΑΠΛΗ ΔΙΑΣΤΑΥΡΩΣΗ ΠΟΛΛΑΠΛΕΣ ΔΙΑΣΤΑΥΡΩΣΕΙΣ
  • 14. 14 Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων Ιούνιος 2022 Οδικό Δίκτυο 2 Διασταυρώσεων Περιβάλλον Εκπαίδευσης Παράμετρος Βέλτιστη Τιμή α 0.036 γ 0.2 decay 0.999 εmin 0.0002 Νέο Πρόβλημα : Πολυπρακτορικό σύστημα, οι πράκτορες επικοινωνούν. Απαιτείται βελτιστοποίηση παραμέτρων για τα πολυπρακτορικά συστήματα N =2, 4, 6 Βασικό Σύστημα: ● 2 πράκτορες, κάθε σηματοδότης εκπαιδεύεται ξεχωριστά ● Ίδιος χώρος ενεργειών ● χώρος κατάστασης ίσος με 5, παρατηρεί επιπλέον τη φάση του γειτονικού σηματοδότη. ● Κάθε πράκτορας δημιουργεί το δικό του πίνακα Q
  • 15. 15 Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων Ιούνιος 2022 Εκπαίδευση Συστήματος 2 Διασταυρώσεων Μέσος Χρόνος Αναμονής Τυπική Απόκλιση 8.399 sec 2.0714 Μέσος Χρόνος Αναμονής Τυπική Απόκλιση 3.2985 sec 0.0722 Σύστημα με έναν Πράκτορα Χώρος Ενεργειών 4 Χώρος Καταστάσεων 10 Πολυπρακτορικό Σύστημα με Δύο Πράκτορες Χώρος Ενεργειών 2 Χώρος Καταστάσεων 5 Καλύτερο Μοντέλο Τα πολυπλοκότερα συστήματα πετυχαίνουν χαμηλότερη απόδοση για ίδιο χρόνο εκπαίδευσης
  • 16. 16 Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων Ιούνιος 2022 Οδικό Δίκτυο 4 Διασταυρώσεων Περιβάλλον Εκπαίδευσης ● Πολυπρακτορικό σύστημα με 4 πράκτορες ● Ίδιος χώρος ενεργειών ίσος με 2 τιμές ● Ως χώρο κατάστασης δέχεται ένα σύνολο 6 τιμών, 4 τιμές που καθορίζουν τα οχήματα στις λωρίδες και 2 τιμές που δείχνουν τη φάση των δύο γειτονικών σηματοδοτών ● Η απόδοση του μοντέλου υπολογίζεται συνολικά από την εκπαίδευση όλων των πρακτόρων ● 4 πίνακες Q, ένας για κάθε πράκτορα.
  • 17. 17 Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων Ιούνιος 2022 Εκπαίδευση Συστήματος 4 Διασταυρώσεων Μέσος Χρόνος Αναμονής Τυπική Απόκλιση 4.9963 sec 0.0615 Εκπαίδευση Συστήματος σε 40 επεισόδια Αξιολόγηση Μοντέλου σε 10 Προσομοιώσεις
  • 18. 18 Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων Ιούνιος 2022 Οδικό Δίκτυο 6 Διασταυρώσεων Περιβάλλον Εκπαίδευσης ● 6 πράκτορες - Ίδιος χώρος ενεργειών ίσος με 2 τιμές ● Έχουμε δύο χώρους καταστάσεων με 6 και 7 τιμές. Οι δύο μεσαίοι σηματοδότες δέχονται 7 τιμές ως παρατήρηση καθώς έχουν ένα επιπλέον γειτονικό σηματοδότη ● Η απόδοση του μοντέλου υπολογίζεται συνολικά από την εκπαίδευση όλων των πρακτόρων ● 6 πίνακες Q, ένας για κάθε πράκτορα.
  • 19. 19 Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων Ιούνιος 2022 Εκπαίδευση Συστήματος 6 Διασταυρώσεων Μέσος Χρόνος Αναμονής Τυπική Απόκλιση 11.2477 sec 0.7036 Εκπαίδευση Συστήματος σε 40 επεισόδια Αξιολόγηση Μοντέλου σε 10 Προσομοιώσεις
  • 20. 20 Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων Ιούνιος 2022 ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ 02 01 06 04 05 03 ΕΙΣΑΓΩΓΗ ΠΕΙΡΑΜΑΤΑ & ΑΠΟΤΕΛΕΣΜΑΤΑ ΣΥΜΠΕΡΑΣΜΑΤΑ & ΜΕΛΛΟΝΤΙΚΕΣ ΕΠΕΚΤΑΣΕΙΣ ΑΠΛΗ ΔΙΑΣΤΑΥΡΩΣΗ ΠΟΛΛΑΠΛΕΣ ΔΙΑΣΤΑΥΡΩΣΕΙΣ
  • 21. 21 Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων Ιούνιος 2022 Πειράματα ❖ 1ο Πείραμα Αξιολόγηση μοντέλο σε περισσότερη κίνηση από αυτήν που εκπαιδεύτηκε Χρήση εμπειρίας εκπαιδευμένων μοντέλων σε πιο πολύπλοκα συστήματα ❖ 2ο Πείραμα Εφαρμογή Q-Table από την εκπαίδευση της απλής διασταύρωσης σε συστήματα με Ν = 2, 4, 6 ❖ 3ο Πείραμα Εφαρμογή Q-Table από την εκπαίδευση της διπλής διασταύρωσης σε συστήματα με Ν = 4, 6
  • 22. 22 Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων Ιούνιος 2022 93.2334 11.7075 14.2865 47.4923 84.4950
  • 23. 23 Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων Ιούνιος 2022 76.2765 3.2985 4.2309 7.1760 30.4255 14.3005
  • 24. 24 Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων Ιούνιος 2022 113.0369 4.9963 6.2858 9.9877 37.1708 46.9155 18.3856
  • 25. 25 Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων Ιούνιος 2022 187.0923 11.2477 14.7232 30.0001 64.7282 22.6531
  • 26. 26 Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων Ιούνιος 2022 ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ 02 01 06 04 05 03 ΕΙΣΑΓΩΓΗ ΠΕΙΡΑΜΑΤΑ & ΑΠΟΤΕΛΕΣΜΑΤΑ ΣΥΜΠΕΡΑΣΜΑΤΑ & ΜΕΛΛΟΝΤΙΚΕΣ ΕΠΕΚΤΑΣΕΙΣ ΑΠΛΗ ΔΙΑΣΤΑΥΡΩΣΗ ΠΟΛΛΑΠΛΕΣ ΔΙΑΣΤΑΥΡΩΣΕΙΣ
  • 27. 27 Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων Ιούνιος 2022 Γενικά Συμπεράσματα Κλιμάκωση πολυπλοκότητας με το χώρο κατάστασης και τον αριθμό των πρακτόρων Ο χρόνος εκπαίδευσης εξαρτάται από την πολυπλοκότητα ΒΕΛΤΙΣΤΟ σύστημα! Πραγματοποίηση εκπαίδευσης στο περιβάλλον του Εκπαίδευση απλών συστημάτων και εφαρμογή σε πολυπλοκότερα Μείωση χρόνου εκπαίδευσης - Αποδοτικό σύστημα Τα πολυπρακτορικά συστήματα αποδίδουν καλύτερα από αυτά με έναν πράκτορα Εύκολη κλιμάκωση και προσαρμοστικότητα Συμβιβασμός μεταξύ βέλτιστης λύσης και χρόνου εκπαίδευσης!
  • 28. 28 Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων Ιούνιος 2022 Μελλοντικές Επεκτάσεις Πολυπλοκότερα Οδικά Δίκτυα Διαφοροποίηση Χώρου Ενεργειών Μετατροπή Συνάρτησης Ανταμοιβής Μείωση Πολυπλοκότητας 1 2 3 Εκπαίδευση Εξερευνώντας Περισσότερες Καταστάσεις
  • 29. Ευχαριστώ πολύ για την προσοχή σας! Ερωτήσεις;