Successfully reported this slideshow.
Your SlideShare is downloading. ×

Υπολογισμός χρονισμού φωτεινών σηματοδοτών με χρήση ενισχυτικής μάθησης προς ελαχιστοποίηση χρόνου αναμονής αυτοκινήτων

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad

Check these out next

1 of 29 Ad

Υπολογισμός χρονισμού φωτεινών σηματοδοτών με χρήση ενισχυτικής μάθησης προς ελαχιστοποίηση χρόνου αναμονής αυτοκινήτων

Download to read offline

Η Τεχνητή Νοημοσύνη αποτελεί έναν από τους σημαντικότερους τομείς των τε λευταίων ετών εξαιτίας της ανάπτυξης της Ενισχυτικής Μάθησης.Η μάθηση αυτή έντονα επηρεασμένη από τη φύση του ανθρώπου και την ψυχολογία του, δημιουργεί μια γέφυρα μεταξύ τεχνολογίας και ανθρώπων. Ξεπερνά το πρόβλημα της απόκτη σης δεδομένων καταργώντας σχεδόν πλήρως την ανάγκη για δεδομένα. Η μάθηση με ενίσχυση εκπαιδεύει ένα μοντέλο να φτάσει σε μια βέλτιστη λύση για ένα πρό βλημα, λαμβάνοντας αποφάσεις από μόνη του, αλληλεπιδρώντας με το περιβάλλον. Μέσω ανταμοιβών μαθαίνει να κρίνει ποιες ενέργειες πρέπει να ακολουθήσει ώστε να πετύχει το στόχο του. Η κυκλοφοριακή συμφόρηση αυξάνεται σε παγκόσμιο επίπεδο και το πρόβλημα πρέπει να αντιμετωπιστεί. Σε ένα δυναμικά μεταβαλλόμενο και διασυνδεδεμένο περιβάλλον κυκλοφορίας, οι επί του παρόντος ρυθμίσεις σηματοδοτών δεν είναι προσαρμοστικές. Υπάρχει ανάγκη για ένα ευφυές σύστημα μεταφορών, που θα βελτιώσει την αποτελεσματικότητα του οδικού συστήματος μιας έξυπνης πόλης. Η παρούσα διπλωματική εργασία προτείνει ένα σύστημα υπολογισμού του χρο νισμού των φωτεινών σηματοδοτών για την ελαχιστοποίηση του χρόνου αναμονής των οχημάτων. Κάθε σηματοδότης μιας διασταύρωσης εκπαιδεύεται, ώστε να μά θει να μεταβάλλει τη φάση του ανάλογα με την κίνηση. Το προτεινόμενο οδικό σύστημα έχει ευέλικτη δομή που τροποποιείται με την προσθήκη περισσότερων διασταυρώσεων στην αρχική δομή της απλής διασταύρωσης. Ο Q-Learning είναι ένας αλγόριθμος RL, που χρησιμοποιήθηκε για την επιλογή της επόμενης βέλτιστης ενέργειας του σηματοδότη σε μια δεδομένη κατάσταση. Λει τουργεί βελτιώνοντας διαδοχικά τις ανταμοιβές για τα ζεύγη κατάσταση-δράσης, τα οποία αποθηκεύονται σε έναν πίνακα Q ως πληροφορία για τον σηματοδότη. Για την προσομοίωση των οδικών δικτύων χρησιμοποιήθηκε το εργαλείο SUMO. Τα μοντέλα εκπαιδεύτηκαν και εξετάστηκαν σε περιβάλλοντα οδικών δικτύων Ν διασταυρώσεων, όπου Ν = 1,2,4,6, εκπαιδεύοντας τους σηματοδότες κάθε διασταύ ρωσης, με σκοπό τη μείωση της κίνησης. Τα αποτελέσματα των εκπαιδεύσεων συ γκρίνονται με τις αποκρίσεις των τωρινών μοντέλων διαχείρισης κυκλοφορίας. Επι πρόσθετα, εφαρμόζεται η εμπειρία των πινάκων Q των απλών δομών (Ν = 1,2) στα πιο πολύπλοκα δίκτυα, ώστε να κριθεί η ανταπόκριση των συστημάτων με τις εμπειρίες απλών δομών. Σύμφωνα με τα αποτελέσματα από τις εκπαιδεύσεις των μοντέλων και των πει ραμάτων, όλα τα μοντέλα ανταποκρίθηκαν αποδοτικά σε ποικίλες μορφές κίνησης, παρόλο που ο χρόνος εκπαίδευσης αυξάνεται με την πολυπλοκότητα. Ένα βέλτιστο μοντέλο απαιτεί περισσότερο χρόνο εκπαίδευσης από ένα απλώς καλό μοντέλο, δημιουργείται έτσι ένας συμβιβασμός μεταξύ χρόνου εκπαίδευσης και βέλτιστης απόκρισης, που πρέπει να λαμβάνει υπόψιν κάθε ερευνητής.

Η Τεχνητή Νοημοσύνη αποτελεί έναν από τους σημαντικότερους τομείς των τε λευταίων ετών εξαιτίας της ανάπτυξης της Ενισχυτικής Μάθησης.Η μάθηση αυτή έντονα επηρεασμένη από τη φύση του ανθρώπου και την ψυχολογία του, δημιουργεί μια γέφυρα μεταξύ τεχνολογίας και ανθρώπων. Ξεπερνά το πρόβλημα της απόκτη σης δεδομένων καταργώντας σχεδόν πλήρως την ανάγκη για δεδομένα. Η μάθηση με ενίσχυση εκπαιδεύει ένα μοντέλο να φτάσει σε μια βέλτιστη λύση για ένα πρό βλημα, λαμβάνοντας αποφάσεις από μόνη του, αλληλεπιδρώντας με το περιβάλλον. Μέσω ανταμοιβών μαθαίνει να κρίνει ποιες ενέργειες πρέπει να ακολουθήσει ώστε να πετύχει το στόχο του. Η κυκλοφοριακή συμφόρηση αυξάνεται σε παγκόσμιο επίπεδο και το πρόβλημα πρέπει να αντιμετωπιστεί. Σε ένα δυναμικά μεταβαλλόμενο και διασυνδεδεμένο περιβάλλον κυκλοφορίας, οι επί του παρόντος ρυθμίσεις σηματοδοτών δεν είναι προσαρμοστικές. Υπάρχει ανάγκη για ένα ευφυές σύστημα μεταφορών, που θα βελτιώσει την αποτελεσματικότητα του οδικού συστήματος μιας έξυπνης πόλης. Η παρούσα διπλωματική εργασία προτείνει ένα σύστημα υπολογισμού του χρο νισμού των φωτεινών σηματοδοτών για την ελαχιστοποίηση του χρόνου αναμονής των οχημάτων. Κάθε σηματοδότης μιας διασταύρωσης εκπαιδεύεται, ώστε να μά θει να μεταβάλλει τη φάση του ανάλογα με την κίνηση. Το προτεινόμενο οδικό σύστημα έχει ευέλικτη δομή που τροποποιείται με την προσθήκη περισσότερων διασταυρώσεων στην αρχική δομή της απλής διασταύρωσης. Ο Q-Learning είναι ένας αλγόριθμος RL, που χρησιμοποιήθηκε για την επιλογή της επόμενης βέλτιστης ενέργειας του σηματοδότη σε μια δεδομένη κατάσταση. Λει τουργεί βελτιώνοντας διαδοχικά τις ανταμοιβές για τα ζεύγη κατάσταση-δράσης, τα οποία αποθηκεύονται σε έναν πίνακα Q ως πληροφορία για τον σηματοδότη. Για την προσομοίωση των οδικών δικτύων χρησιμοποιήθηκε το εργαλείο SUMO. Τα μοντέλα εκπαιδεύτηκαν και εξετάστηκαν σε περιβάλλοντα οδικών δικτύων Ν διασταυρώσεων, όπου Ν = 1,2,4,6, εκπαιδεύοντας τους σηματοδότες κάθε διασταύ ρωσης, με σκοπό τη μείωση της κίνησης. Τα αποτελέσματα των εκπαιδεύσεων συ γκρίνονται με τις αποκρίσεις των τωρινών μοντέλων διαχείρισης κυκλοφορίας. Επι πρόσθετα, εφαρμόζεται η εμπειρία των πινάκων Q των απλών δομών (Ν = 1,2) στα πιο πολύπλοκα δίκτυα, ώστε να κριθεί η ανταπόκριση των συστημάτων με τις εμπειρίες απλών δομών. Σύμφωνα με τα αποτελέσματα από τις εκπαιδεύσεις των μοντέλων και των πει ραμάτων, όλα τα μοντέλα ανταποκρίθηκαν αποδοτικά σε ποικίλες μορφές κίνησης, παρόλο που ο χρόνος εκπαίδευσης αυξάνεται με την πολυπλοκότητα. Ένα βέλτιστο μοντέλο απαιτεί περισσότερο χρόνο εκπαίδευσης από ένα απλώς καλό μοντέλο, δημιουργείται έτσι ένας συμβιβασμός μεταξύ χρόνου εκπαίδευσης και βέλτιστης απόκρισης, που πρέπει να λαμβάνει υπόψιν κάθε ερευνητής.

Advertisement
Advertisement

More Related Content

More from ISSEL (20)

Advertisement

Υπολογισμός χρονισμού φωτεινών σηματοδοτών με χρήση ενισχυτικής μάθησης προς ελαχιστοποίηση χρόνου αναμονής αυτοκινήτων

  1. 1. 1 Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων Ιούνιος 2022 Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων Εκπόνηση: Ιατροπούλου Ζαφειρία ΑΕΜ: 9332 Επιβλέποντες: Ανδρέας Συμεωνίδης Αν. Καθηγητής ΑΠΘ Εμμανουήλ Τσαρδούλιας Μεταδιδακτορικός ερευνητής
  2. 2. 2 Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων Ιούνιος 2022 ΕΙΣΑΓΩΓΗ 01 02 06 04 05 03 ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ ΠΕΙΡΑΜΑΤΑ & ΑΠΟΤΕΛΕΣΜΑΤΑ ΣΥΜΠΕΡΑΣΜΑΤΑ & ΜΕΛΛΟΝΤΙΚΕΣ ΕΠΕΚΤΑΣΕΙΣ ΑΠΛΗ ΔΙΑΣΤΑΥΡΩΣΗ ΠΟΛΛΑΠΛΕΣ ΔΙΑΣΤΑΥΡΩΣΕΙΣ
  3. 3. 3 Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων Ιούνιος 2022 Περιγραφή Προβλήματος ● Στατικοί χρονισμοί φαναριών Μη ισορροπημένη διέλευση οχημάτων ● Μεγάλος όγκος οχημάτων κυρίως σε διασταυρώσεις ● Αρκετή αναμονή επιβατών - Μη παραγωγικός χρόνος ● Αγανάκτηση οδηγών Παραβίαση σημάτων κυκλοφορίας Ατυχήματα ● Πρόβλημα αναμονής σε απομακρυσμένες περιοχές χωρίς κίνηση
  4. 4. 4 Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων Ιούνιος 2022 Σκοπός της διπλωματικής Τεχνική Ενισχυτικής Μάθησης Εκπαίδευση Αλγορίθμου Q-Learning Περιβάλλον Απλής Διασταύρωσης Περιβάλλον Πολλαπλών Διασταυρώσεων Έξυπνοι Φωτεινοί Σηματοδότες Μείωση Χρόνου Αναμονής
  5. 5. 5 Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων Ιούνιος 2022 ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ 02 01 06 04 05 03 ΕΙΣΑΓΩΓΗ ΠΕΙΡΑΜΑΤΑ & ΑΠΟΤΕΛΕΣΜΑΤΑ ΣΥΜΠΕΡΑΣΜΑΤΑ & ΜΕΛΛΟΝΤΙΚΕΣ ΕΠΕΚΤΑΣΕΙΣ ΑΠΛΗ ΔΙΑΣΤΑΥΡΩΣΗ ΠΟΛΛΑΠΛΕΣ ΔΙΑΣΤΑΥΡΩΣΕΙΣ
  6. 6. 6 Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων Ιούνιος 2022 Ενισχυτική Μάθηση - Reinforcement Learning Βασική Διαδικασία Μάθησης Βασική Ορολογία Ενισχυτικής Μάθησης ❏ Πράκτορας - Agent : οντότητα που εξερευνά το περιβάλλον και ενεργεί σε αυτό ❏ Ενέργεια - Action : δυνατές κινήσεις που μπορεί να λάβει ο πράκτορας ❏ Περιβάλλον - Environment : ο χώρος που περιβάλλει τον πράκτορα ❏ Κατάσταση - State : κατάσταση που επιστρέφει το περιβάλλον στον πράκτορα σε κάθε βήμα ❏ Ανταμοιβή - Reward : αξιολόγηση του πράκτορα για την απόφαση που έλαβε 3 Παράμετροι Προβλημάτων RL ❏ Policy : δημιουργεί ζεύγη κατάστασης - ενέργειας και καθορίζει τη συμπεριφορά του πράκτορα ❏ Q-Value : αντιστοιχεί ζεύγη κατάστασης-δράσης σε τιμές, καθορίζει πόσο καλό είναι ένα ζεύγος ❏ Discount Factor - γ ε [0, 1] : ορίζει τη σημασία των μελλοντικών ανταμοιβών Bellman Equation Προβλήματα RL Μαρκοβιανή Διαδικασία Αποφάσεων Q(s, a) = E [Rt+1 + γ max Q(s´, a´)] α’ Διατύπωση εξίσωσης στη μορφή Q-Value
  7. 7. 7 Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων Ιούνιος 2022 Αλγόριθμος Q - Learning Δύο κύρια στοιχεία για την εξεύρεση σωστών ενεργειών σε δεδομένη κατάσταση: ❖ Q - Table : πίνακας που περιέχει τα Q-Value. Οι γραμμές αποτελούν συγκεκριμένες καταστάσεις του περιβάλλοντος και οι στήλες αναφέρονται στις επιτρεπτές ενέργειες. ❖ Q - Function : Υπολογίζει τις τιμές Q για το πρόβλημα απόφασης του πράκτορα σε συγκεκριμένες καταστάσεις. Το Q αντιπροσωπεύει την ποιότητα των ενεργειών. Χρησιμοποιεί την εξίσωση Bellman και τον κανόνα Temporal Difference για την ανανέωση των τιμών Q : Επιλογή ενέργειας Υπολογισμός Ανταμοιβής Ανανέωση Q-Table Εκτέλεση της ενέργειας Αρχικοποίηση Q-Table Διάγραμμα Ροής Λειτουργίας της Μεθόδου Q (s, a) = (1 − α) Q(s, a) + α(R + γmax Q(s´, a´) new a´ learned value old value α : ρυθμός εκμάθησης
  8. 8. 8 Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων Ιούνιος 2022 Πολιτική Epsilon Greedy Πολιτική που καθορίζει την ενέργεια που θα λάβει ο πράκτορας ! Συμβιβασμόςμεταξύ Εξερεύνησης - Εκμετάλλευσης ( Exploration - Exploitation ) ● Exploration : εξερεύνηση του περιβάλλοντος επιλέγοντας τυχαία ενέργεια ● Exploitation : εκμετάλλευση της υπάρχουσας γνώσης από τον πίνακα Q Εξερεύνηση Εκμετάλλευση Καλύτερη γνωστή Ενέργεια Επιλογή τυχαίας Ενέργειας ε 1 - ε Χρονικό Βήμα Ξεκινά εξερευνώντας το περιβάλλον και μετά από κάποιες επαναλήψεις εκμεταλλεύεται περισσότερο τις γνώσεις του. Παράμετροι Πολιτικής ε : πιθανότητα εξερεύνησης, αρχικά ίση με 1 και φθίνει κατά την εκπαίδευση μέχρι την ελάχιστη τιμή εmin εmin : ελάχιστη τιμή της μεταβλητής ε decay : σταθερή τιμή κοντά στη μονάδα που μειώνει το ε
  9. 9. 9 Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων Ιούνιος 2022 ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ 02 01 06 04 05 03 ΕΙΣΑΓΩΓΗ ΠΕΙΡΑΜΑΤΑ & ΑΠΟΤΕΛΕΣΜΑΤΑ ΣΥΜΠΕΡΑΣΜΑΤΑ & ΜΕΛΛΟΝΤΙΚΕΣ ΕΠΕΚΤΑΣΕΙΣ ΑΠΛΗ ΔΙΑΣΤΑΥΡΩΣΗ ΠΟΛΛΑΠΛΕΣ ΔΙΑΣΤΑΥΡΩΣΕΙΣ
  10. 10. 10 Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων Ιούνιος 2022 Οδικό Δίκτυο Απλής Διασταύρωσης 1. Περιβάλλον Εκπαίδευσης Simulation of Urban MObility - Εργαλείο SUMO ● Δημιουργία των οδικών δικτύων ● Ανάπτυξη διαδρομών για τα οχήματα ● Ορισμός φωτεινών σηματοδοτών ● Προσομοίωση της εκπαίδευσης σε γραφικό περιβάλλον Βιβλιοθήκη Traci ● Διεπαφή μεταξύ της προσομοίωσης στο SUMO και της Python ● Πρόσβαση στην προσομοίωση και ανάκτηση τιμών αντικειμένων της κατά την εκτέλεση
  11. 11. 11 Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων Ιούνιος 2022 Βασικοί Όροι της Τεχνικής RL 1. Πράκτορας - Agent : ο σηματοδότης κάθε διασταύρωσης εκπαιδεύεται ώστε να ενεργεί σωστά 1. Χώρος Καταστάσεων : ένα σύνολο με 4 τιμές που αντιπροσωπεύουν την πυκνότητα οχημάτων στις λωρίδες. Οι τιμές είναι ακέραιες και ανήκουν στο σύνολο [0, 9]. 1. Χώρος Ενεργειών : ένα διακριτό σύνολο δύο τιμών [0, 1], αποτελεί τις 2 δυνατές φάσεις του σηματοδότη 1. Ανταμοιβή : συνάρτηση 4 μεταβλητών, οι οποίες αποτελούν άλλες ανταμοιβές και προκύπτουν από τη μείωση ή αύξηση κάποιων χαρακτηριστικών (π.χ. οχήματα που διέσχισαν τη διασταύρωση) 1. Q-Table : dictionary που αποθηκεύει τιμές Q για ζεύγη κατάστασης-δράσης. Ένα αντικείμενο έχει τη μορφή : { (2, 4, 0, 5) : [0.364, -0.642] } s Q(s, α0 ) Q(s, α1 )
  12. 12. 12 Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων Ιούνιος 2022 Εκπαίδευση Συστήματος Απλής Διασταύρωσης Τιμές Παραμέτρων ύστερα από μεθόδους Βελτιστοποίησης 11.7075 sec 0.2939 Μέσος Χρόνος Αναμονής Τυπική Απόκλιση Παράμετρος Βέλτιστη Τιμή α 0.0695 γ 0.553 decay 0.999 εmin 0.0003 Εκπαίδευση Συστήματος σε 40 επεισόδια Αξιολόγηση Μοντέλου σε 10 Προσομοιώσεις
  13. 13. 13 Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων Ιούνιος 2022 ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ 02 01 06 04 05 03 ΕΙΣΑΓΩΓΗ ΠΕΙΡΑΜΑΤΑ & ΑΠΟΤΕΛΕΣΜΑΤΑ ΣΥΜΠΕΡΑΣΜΑΤΑ & ΜΕΛΛΟΝΤΙΚΕΣ ΕΠΕΚΤΑΣΕΙΣ ΑΠΛΗ ΔΙΑΣΤΑΥΡΩΣΗ ΠΟΛΛΑΠΛΕΣ ΔΙΑΣΤΑΥΡΩΣΕΙΣ
  14. 14. 14 Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων Ιούνιος 2022 Οδικό Δίκτυο 2 Διασταυρώσεων Περιβάλλον Εκπαίδευσης Παράμετρος Βέλτιστη Τιμή α 0.036 γ 0.2 decay 0.999 εmin 0.0002 Νέο Πρόβλημα : Πολυπρακτορικό σύστημα, οι πράκτορες επικοινωνούν. Απαιτείται βελτιστοποίηση παραμέτρων για τα πολυπρακτορικά συστήματα N =2, 4, 6 Βασικό Σύστημα: ● 2 πράκτορες, κάθε σηματοδότης εκπαιδεύεται ξεχωριστά ● Ίδιος χώρος ενεργειών ● χώρος κατάστασης ίσος με 5, παρατηρεί επιπλέον τη φάση του γειτονικού σηματοδότη. ● Κάθε πράκτορας δημιουργεί το δικό του πίνακα Q
  15. 15. 15 Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων Ιούνιος 2022 Εκπαίδευση Συστήματος 2 Διασταυρώσεων Μέσος Χρόνος Αναμονής Τυπική Απόκλιση 8.399 sec 2.0714 Μέσος Χρόνος Αναμονής Τυπική Απόκλιση 3.2985 sec 0.0722 Σύστημα με έναν Πράκτορα Χώρος Ενεργειών 4 Χώρος Καταστάσεων 10 Πολυπρακτορικό Σύστημα με Δύο Πράκτορες Χώρος Ενεργειών 2 Χώρος Καταστάσεων 5 Καλύτερο Μοντέλο Τα πολυπλοκότερα συστήματα πετυχαίνουν χαμηλότερη απόδοση για ίδιο χρόνο εκπαίδευσης
  16. 16. 16 Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων Ιούνιος 2022 Οδικό Δίκτυο 4 Διασταυρώσεων Περιβάλλον Εκπαίδευσης ● Πολυπρακτορικό σύστημα με 4 πράκτορες ● Ίδιος χώρος ενεργειών ίσος με 2 τιμές ● Ως χώρο κατάστασης δέχεται ένα σύνολο 6 τιμών, 4 τιμές που καθορίζουν τα οχήματα στις λωρίδες και 2 τιμές που δείχνουν τη φάση των δύο γειτονικών σηματοδοτών ● Η απόδοση του μοντέλου υπολογίζεται συνολικά από την εκπαίδευση όλων των πρακτόρων ● 4 πίνακες Q, ένας για κάθε πράκτορα.
  17. 17. 17 Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων Ιούνιος 2022 Εκπαίδευση Συστήματος 4 Διασταυρώσεων Μέσος Χρόνος Αναμονής Τυπική Απόκλιση 4.9963 sec 0.0615 Εκπαίδευση Συστήματος σε 40 επεισόδια Αξιολόγηση Μοντέλου σε 10 Προσομοιώσεις
  18. 18. 18 Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων Ιούνιος 2022 Οδικό Δίκτυο 6 Διασταυρώσεων Περιβάλλον Εκπαίδευσης ● 6 πράκτορες - Ίδιος χώρος ενεργειών ίσος με 2 τιμές ● Έχουμε δύο χώρους καταστάσεων με 6 και 7 τιμές. Οι δύο μεσαίοι σηματοδότες δέχονται 7 τιμές ως παρατήρηση καθώς έχουν ένα επιπλέον γειτονικό σηματοδότη ● Η απόδοση του μοντέλου υπολογίζεται συνολικά από την εκπαίδευση όλων των πρακτόρων ● 6 πίνακες Q, ένας για κάθε πράκτορα.
  19. 19. 19 Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων Ιούνιος 2022 Εκπαίδευση Συστήματος 6 Διασταυρώσεων Μέσος Χρόνος Αναμονής Τυπική Απόκλιση 11.2477 sec 0.7036 Εκπαίδευση Συστήματος σε 40 επεισόδια Αξιολόγηση Μοντέλου σε 10 Προσομοιώσεις
  20. 20. 20 Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων Ιούνιος 2022 ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ 02 01 06 04 05 03 ΕΙΣΑΓΩΓΗ ΠΕΙΡΑΜΑΤΑ & ΑΠΟΤΕΛΕΣΜΑΤΑ ΣΥΜΠΕΡΑΣΜΑΤΑ & ΜΕΛΛΟΝΤΙΚΕΣ ΕΠΕΚΤΑΣΕΙΣ ΑΠΛΗ ΔΙΑΣΤΑΥΡΩΣΗ ΠΟΛΛΑΠΛΕΣ ΔΙΑΣΤΑΥΡΩΣΕΙΣ
  21. 21. 21 Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων Ιούνιος 2022 Πειράματα ❖ 1ο Πείραμα Αξιολόγηση μοντέλο σε περισσότερη κίνηση από αυτήν που εκπαιδεύτηκε Χρήση εμπειρίας εκπαιδευμένων μοντέλων σε πιο πολύπλοκα συστήματα ❖ 2ο Πείραμα Εφαρμογή Q-Table από την εκπαίδευση της απλής διασταύρωσης σε συστήματα με Ν = 2, 4, 6 ❖ 3ο Πείραμα Εφαρμογή Q-Table από την εκπαίδευση της διπλής διασταύρωσης σε συστήματα με Ν = 4, 6
  22. 22. 22 Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων Ιούνιος 2022 93.2334 11.7075 14.2865 47.4923 84.4950
  23. 23. 23 Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων Ιούνιος 2022 76.2765 3.2985 4.2309 7.1760 30.4255 14.3005
  24. 24. 24 Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων Ιούνιος 2022 113.0369 4.9963 6.2858 9.9877 37.1708 46.9155 18.3856
  25. 25. 25 Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων Ιούνιος 2022 187.0923 11.2477 14.7232 30.0001 64.7282 22.6531
  26. 26. 26 Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων Ιούνιος 2022 ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ 02 01 06 04 05 03 ΕΙΣΑΓΩΓΗ ΠΕΙΡΑΜΑΤΑ & ΑΠΟΤΕΛΕΣΜΑΤΑ ΣΥΜΠΕΡΑΣΜΑΤΑ & ΜΕΛΛΟΝΤΙΚΕΣ ΕΠΕΚΤΑΣΕΙΣ ΑΠΛΗ ΔΙΑΣΤΑΥΡΩΣΗ ΠΟΛΛΑΠΛΕΣ ΔΙΑΣΤΑΥΡΩΣΕΙΣ
  27. 27. 27 Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων Ιούνιος 2022 Γενικά Συμπεράσματα Κλιμάκωση πολυπλοκότητας με το χώρο κατάστασης και τον αριθμό των πρακτόρων Ο χρόνος εκπαίδευσης εξαρτάται από την πολυπλοκότητα ΒΕΛΤΙΣΤΟ σύστημα! Πραγματοποίηση εκπαίδευσης στο περιβάλλον του Εκπαίδευση απλών συστημάτων και εφαρμογή σε πολυπλοκότερα Μείωση χρόνου εκπαίδευσης - Αποδοτικό σύστημα Τα πολυπρακτορικά συστήματα αποδίδουν καλύτερα από αυτά με έναν πράκτορα Εύκολη κλιμάκωση και προσαρμοστικότητα Συμβιβασμός μεταξύ βέλτιστης λύσης και χρόνου εκπαίδευσης!
  28. 28. 28 Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων Ιούνιος 2022 Μελλοντικές Επεκτάσεις Πολυπλοκότερα Οδικά Δίκτυα Διαφοροποίηση Χώρου Ενεργειών Μετατροπή Συνάρτησης Ανταμοιβής Μείωση Πολυπλοκότητας 1 2 3 Εκπαίδευση Εξερευνώντας Περισσότερες Καταστάσεις
  29. 29. Ευχαριστώ πολύ για την προσοχή σας! Ερωτήσεις;

×