Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Βασίλειος Χούτας

104 views

Published on

Ανάπτυξη Αυτόμονων Πρακτόρων με Χρήση Προσαρμοστικών Μηχανισμών Εστίασης και Βαθέων Νευρωνιών Δικτύων

Published in: Education
  • Be the first to comment

  • Be the first to like this

Βασίλειος Χούτας

  1. 1. ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εργαστήριο Επεξεργασίας Πληροφορίας και Υπολογισμών Ανάπτυξη Αυτόνομων Πρακτόρων με χρήση Προσαρμοστικών Μηχανισμών Εστίασης και Βαθέων Νευρωνικών Δικτύων Διπλωματική Εργασία Επιβλέποντες: Χούτας Βασίλειος Καθ. Περικλής Α. Μήτκας Α.Ε.Μ.: 7800 Δρ. Κυριάκος Χατζηδημητρίου Θεσσαλονίκη, 29 Ιουνίου 2017
  2. 2. Πίνακας Περιεχομένων 1. Εισαγωγή 2. Μεθοδολογία 3. Αποτελέσματα 4. Συμπεράσματα Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 2 / 30
  3. 3. Deep RL Σχήμα: Deeq Q-Learning Network1, πηγή: https://www.nature.com/ 1. Mnih, Kavukcuoglu, Silver, Rusu, Veness, Bellemare, Graves, Riedmiller, Fidjeland, Ostrovski, Petersen, Beattie, Sadik, Antonoglou, King, Kumaran, Wierstra, Legg, and Hassabis, «Human-level control through deep reinforcement learning», 2015 Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 3 / 30
  4. 4. Attention Models lt-1 gt Glimpse Sensor xt ρ(xt , lt-1) θg 0 θg 1 θg 2 Glimpse Network : fg( θg ) lt-1 gt ltat lt gt+1 lt+1at+1 ht ht+1 fg(θg) ht-1 fl(θl)fa(θa) fh(θh) fg(θg) fl(θl)fa(θa) fh(θh) xt ρ(xt , lt-1)lt-1 Glimpse Sensor A) B) C) (αʹ) Ταξινόμηση Εικόνων με Μηχανισμό Εστίασης1 Σχήμα: Μοντέλο Αυστηρής Εστίασης (αʹ) Αναγνώριση Δραστηριοτήτων2 Σχήμα: Μοντέλο Ελαστικής Εστίασης 1. Mnih, Heess, Graves, and Kavukcuoglu, «Recurrent Models of Visual Attention», 2014 2. Sharma, Kiros, and Salakhutdinov, «Action Recognition using Visual Attention», 2015 Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 4 / 30
  5. 5. Στόχος της Διπλωματικής • Συνδυασμός Μηχανισμών Εστίασης με Αλγορίθμους Βαθιάς Ενισχυτικής Μάθησης. Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 5 / 30
  6. 6. Στόχος της Διπλωματικής • Συνδυασμός Μηχανισμών Εστίασης με Αλγορίθμους Βαθιάς Ενισχυτικής Μάθησης. • Διερεύνηση μεθόδων για δυναμική επιλογή του αριθμού των βλεμμάτων. Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 5 / 30
  7. 7. Στόχος της Διπλωματικής • Συνδυασμός Μηχανισμών Εστίασης με Αλγορίθμους Βαθιάς Ενισχυτικής Μάθησης. • Διερεύνηση μεθόδων για δυναμική επιλογή του αριθμού των βλεμμάτων. • Σύγκριση του πράκτορα που προκύπτει με state-of-the-art αλγορίθμους Ενισχυτικής Μάθησης. Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 5 / 30
  8. 8. 1. Εισαγωγή 2. Μεθοδολογία 2.1 Ενισχυτική Μάθηση 2.2 Αρχιτεκτονική Δικτύου 2.3 Μηχανισμός Εστίασης 2.4 Δυναμική Επιλογή Αριθμού Βημάτων 3. Αποτελέσματα 4. Συμπεράσματα
  9. 9. Πρόβλημα Ενισχυτικής Μάθησης Σχήμα: Το πρόβλημα της Ενισχυτικής Μάθησης Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 6 / 30
  10. 10. Εκμάθηση Πολιτικής Στόχος του Πράκτορα Μεγιστοποίηση της προσδοκώμενης ανταμοιβής: max πθ E [R|πθ] Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 7 / 30
  11. 11. Εκμάθηση Πολιτικής Στόχος του Πράκτορα Μεγιστοποίηση της προσδοκώμενης ανταμοιβής: max πθ E [R|πθ] Θεώρημα Κλίσης Πολιτικής Αποδεικνύεται1 ότι: ∇θE [R(τ)] = [T−1∑ t′=0 ∇θ log π (αt′ |st′ ; θ) T−1∑ t=t′ rt ] 1. Sutton, McAllester, Singh, Mansour, et al., «Policy gradient methods for reinforcement learning with function approximation», 1999. Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 7 / 30
  12. 12. Ασύγχρονος Δράστης με Κριτή Σχήμα: Asynchronous Advantage Actor-Critic1 (A3C) 1. Mnih, Badia, Mirza, Graves, Lillicrap, Harley, Silver, and Kavukcuoglu, «Asynchronous Methods for Deep Reinforcement Learning», 2016. Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 8 / 30
  13. 13. 1. Εισαγωγή 2. Μεθοδολογία 2.1 Ενισχυτική Μάθηση 2.2 Αρχιτεκτονική Δικτύου 2.3 Μηχανισμός Εστίασης 2.4 Δυναμική Επιλογή Αριθμού Βημάτων 3. Αποτελέσματα 4. Συμπεράσματα
  14. 14. Δομή Νευρωνικού Δικτύου Σχήμα: Νευρωνικό Δίκτυο Πολιτικής Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 9 / 30
  15. 15. Προσθήκη Νευρωνικού Δικτύου Ανάδρασης Σχήμα: Νευρωνικό Δίκτυο Ανάδρασης Πολιτικής Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 10 / 30
  16. 16. 1. Εισαγωγή 2. Μεθοδολογία 2.1 Ενισχυτική Μάθηση 2.2 Αρχιτεκτονική Δικτύου 2.3 Μηχανισμός Εστίασης 2.4 Δυναμική Επιλογή Αριθμού Βημάτων 3. Αποτελέσματα 4. Συμπεράσματα
  17. 17. Δομή Μηχανισμού Εστίασης Σχήμα: Υπολογισμός Εξόδου Μηχανισμού Εστίασης Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 11 / 30
  18. 18. Δίκτυο Χωρικών Μετασχηματισμών Αρχιτεκτονική Grid Generator Localisation Net Sampler Spatial Transformer U V Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 12 / 30
  19. 19. Δίκτυο Χωρικών Μετασχηματισμών Αρχιτεκτονική Grid Generator Localisation Net Sampler Spatial Transformer U V Υπολογισμός Εξόδου μέσω Δειγματοληψίας U V (αʹ) Ταυτοτικός Μετασχηματισμός U V (βʹ) Αφινικός Μετασχηματισμός Vc i = H∑ n W∑ m Uc nm· max (0, 1 − |xs i − m|) · max (0, 1 − |ys i − n|) Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 12 / 30
  20. 20. Αρχιτεκτονική Μηχανισμού Εστίασης Σχήμα: Μηχανισμός Εστίασης Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 13 / 30
  21. 21. 1. Εισαγωγή 2. Μεθοδολογία 2.1 Ενισχυτική Μάθηση 2.2 Αρχιτεκτονική Δικτύου 2.3 Μηχανισμός Εστίασης 2.4 Δυναμική Επιλογή Αριθμού Βημάτων 3. Αποτελέσματα 4. Συμπεράσματα
  22. 22. Με ενισχυτική Μάθηση Ενέργειες Παύσης • pΠαύση = σ(Wh ⃗ht + bh) • pΣυνέχεια = 1 − pΠαύση • σ(x) = 1 1+e−x Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 14 / 30
  23. 23. Με ενισχυτική Μάθηση Ενέργειες Παύσης • pΠαύση = σ(Wh ⃗ht + bh) • pΣυνέχεια = 1 − pΠαύση • σ(x) = 1 1+e−x Συνάρτηση Ανταμοιβής για επιλογή βημάτων • r Εστίασης n = { 1 n = N 0 n < N • R = ∑N−1 n=0 γn Εστrn+1 = γN−1 Εστ rN Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 14 / 30
  24. 24. Με ενισχυτική Μάθηση Ενέργειες Παύσης • pΠαύση = σ(Wh ⃗ht + bh) • pΣυνέχεια = 1 − pΠαύση • σ(x) = 1 1+e−x Συνάρτηση Ανταμοιβής για επιλογή βημάτων • r Εστίασης n = { 1 n = N 0 n < N • R = ∑N−1 n=0 γn Εστrn+1 = γN−1 Εστ rN Έξοδος Μηχανισμού Εστίασης ⃗y = ⃗hN(t) Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 14 / 30
  25. 25. Μηχανισμός Προσαρμογής Υπολογιστικού Χρόνου Ενδιάμεσες Ποσότητες • sn t = { S(st−1, xn t ) , n = 1 S(sn−1 t , xn t ) , διαφορετικά • yn t = Wsysn t + by • xn t = xt + δn,1 = { xt , διαφορετικά xt + 1 , n = 1 1. Graves, «Adaptive Computation Time for Recurrent Neural Networks», 2016 Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 15 / 30
  26. 26. Μηχανισμός Προσαρμογής Υπολογιστικού Χρόνου Ενδιάμεσες Ποσότητες • sn t = { S(st−1, xn t ) , n = 1 S(sn−1 t , xn t ) , διαφορετικά • yn t = Wsysn t + by • xn t = xt + δn,1 = { xt , διαφορετικά xt + 1 , n = 1 Μηχανισμός Παύσης • Μονάδα Παύσης (Halting Unit): hn t = σ(Wshsn t + bh) • Πιθανότητα Παύσης (Halting Probability): pn t = { R(t) n = N(t) hn t διαφορετικά • Υπόλοιπο (Remainder): R(t) = 1 − ∑N(t)−1 n=1 hn t • Αριθμός Βημάτων: N(t) = min { M, min { n′ : ∑n′ n=1 hn t ≥ 1 − ϵ }} 1. Graves, «Adaptive Computation Time for Recurrent Neural Networks», 2016 Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 15 / 30
  27. 27. Μηχανισμός Προσαρμογής Υπολογιστικού Χρόνου (Συνέχεια) Έξοδος Προσαρμοστικού Μηχανισμού • Νέα Εσωτερική Κατάσταση ΝΔΑ: st = ∑N(t) n=1 pn t sn t • Επόμενη Έξοδος ΝΔΑ: yt = ∑N(t) n=1 pn t yn t 1. Graves, «Adaptive Computation Time for Recurrent Neural Networks», 2016 Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 16 / 30
  28. 28. Μηχανισμός Προσαρμογής Υπολογιστικού Χρόνου (Συνέχεια) Έξοδος Προσαρμοστικού Μηχανισμού • Νέα Εσωτερική Κατάσταση ΝΔΑ: st = ∑N(t) n=1 pn t sn t • Επόμενη Έξοδος ΝΔΑ: yt = ∑N(t) n=1 pn t yn t Κόστος Διαδικασίας Επιλογής Αριθμού Βημάτων • Ακολουθία Συλλογισμού (Ponder Sequence) (ρ1, ρ2, . . . , ρT): ρt = N(t) + R(t) • Κόστος Συλλογισμού: τ · P (⃗x) = τ · ∑T t=1 ρt 1. Graves, «Adaptive Computation Time for Recurrent Neural Networks», 2016 Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 16 / 30
  29. 29. 1. Εισαγωγή 2. Μεθοδολογία 3. Αποτελέσματα 3.1 Επιλογή Υπερ-Παραμέτρων 3.2 Pong 3.3 Breakout 4. Συμπεράσματα
  30. 30. Περιγραφή Catch Σχήμα: Παράδειγμα παιχνιδιού Catch Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 17 / 30
  31. 31. Τελικές Τιμές Υπέρ-Παραμέτρων Υπέρ-Παράμετροι Όνομα Παραμέτρου Τιμή Αριθμός Νημάτων A3C 16 Ρυθμός Μάθησης η = 10−4 Ρυθμός Μάθησης για δίκτυο με ΝΔΑ η = 8 · 10−5 Απόσβεση Ρυθμού Μάθησης Όχι Μέγιστος Αριθμός Ματιών 20 tmax 20 Αλγόριθμος Βελτιστοποίησης Adam Kingma και Ba, «Adam: A Method for Stochastic Optimization», 2014 Χρήση κοινών στατιστικών του αλγορίθμου βελτιστοποίησης μεταξύ των νημάτων. Ναι Ρυθμός μάθησης Δικτύου Χωρικών Μετασχηματισμών 10−3 · η Άνω φράγμα του μέτρου της κλίσης 10 Βάρος όρου Εντροπίας β = 10−2 Βάρος όρου Εντροπίας Μηχανισμού Επιλογής Αριθμού Βλεμμάτων με Ενισχυτική Μάθηση βglimpse = 10−2 Ρυθμός Έκπτωσης γ = 0.99 Βάρος συνάρτησης κανονικοποίησης πλέγματος Δικτύου Χωρικών Μετασχηματισμών λSTN Reg = 1.0 Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 18 / 30
  32. 32. 1. Εισαγωγή 2. Μεθοδολογία 3. Αποτελέσματα 3.1 Επιλογή Υπερ-Παραμέτρων 3.2 Pong 3.3 Breakout 4. Συμπεράσματα
  33. 33. Περιγραφή Παιχνιδιού Σχήμα: Στιγμιότυπα παιχνιδιού Pong Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 19 / 30
  34. 34. Αποτελέσματα Εκπαίδευσης στο Pong Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 20 / 30
  35. 35. Πίνακας Αποτελεσμάτων Αλγόριθμος Εκπαίδευσης Πολιτικής Είδος ΝΔΑ Είδος Μηχανισμού Δυναμικής Επιλογής Βλεμμάτων Μέγιστος Αριθμός Βλεμμάτων Μέγιστη Μέση Ανταμοιβή A3C-GAE Ρυθμός Μάθησης η = 10−4 IRNN Χωρίς Μηχανισμό Εστίασης - 20.976 A3C-GAE LSTM Μηχανισμός Προσαρμογής Υπολογιστικού Χρόνου σε ΝΔΑ Παράμετρος Ποινής Χρονικής Καθυστέρησης τ = 10−3 20 20.87 A3C-GAE LSTM Μηχανισμός Προσαρμογής Υπολογιστικού Χρόνου σε ΝΔΑ Παράμετρος Ποινής Χρονικής Καθυστέρησης τ = 10−4 8 20.46 A3C-GAE LSTM Μηχανισμός Ενισχυτικής Μάθησης 20 20.312 A3C-GAE LSTM Μηχανισμός Προσαρμογής Υπολογιστικού Χρόνου σε ΝΔΑ Παράμετρος Ποινής Χρονικής Καθυστέρησης τ = 10−7 20 18.79 A3C-GAE LSTM Μηχανισμός Ενισχυτικής Μάθησης 20 17.276 Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 21 / 30
  36. 36. Πίνακας Αποτελεσμάτων (αʹ) Μοντέλο 1ης Γραμμής (βʹ) Μοντέλο 2ης Γραμμής (γʹ) Μοντέλο 3ης Γραμμής (δʹ) Μοντέλο 4ης Γραμμής (αʹ) Μοντέλο 5ης Γραμμής (βʹ) Μοντέλο 6ης Γραμμής Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 22 / 30
  37. 37. 1. Εισαγωγή 2. Μεθοδολογία 3. Αποτελέσματα 3.1 Επιλογή Υπερ-Παραμέτρων 3.2 Pong 3.3 Breakout 4. Συμπεράσματα
  38. 38. Περιγραφή Παιχνιδιού Σχήμα: Στιγμιότυπα παιχνιδιού Breakout Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 23 / 30
  39. 39. Αποτελέσματα Εκπαίδευσης στο Breakout Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 24 / 30
  40. 40. Πίνακας Αποτελεσμάτων I Αλγόριθμος Εκπαίδευσης Πολιτικής Είδος ΝΔΑ Είδος Μηχανισμού Δυναμικής Επιλογής Βλεμμάτων Μέγιστος Αριθμός Βλεμμάτων Μέγιστη Μέση Ανταμοιβή A3C-GAE Ρυθμός Μάθησης η = 10−4 IRNN Χωρίς Μηχανισμό Εστίασης - 564.87 A3C-GAE Ρυθμός Μάθησης η = 10−4 LSTM Χωρίς Μηχανισμό Εστίασης - 502.89 A3C-GAE LSTM Μηχανισμός Προσαρμογής Υπολογιστικού Χρόνου σε ΝΔΑ Παράμετρος Ποινής Χρονικής Καθυστέρησης τ = 10−3 20 294.1 A3C-GAE Ρυθμός Μάθησης η = 10−4 Αριθμός Νημάτων = 32 LSTM Μηχανισμός Ενισχυτικής Μάθησης 20 234.88 Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 25 / 30
  41. 41. Πίνακας Αποτελεσμάτων II Αλγόριθμος Εκπαίδευσης Πολιτικής Είδος ΝΔΑ Είδος Μηχανισμού Δυναμικής Επιλογής Βλεμμάτων Μέγιστος Αριθμός Βλεμμάτων Μέγιστη Μέση Ανταμοιβή A3C-GAE LSTM Μηχανισμός Προσαρμογής Υπολογιστικού Χρόνου σε ΝΔΑ Παράμετρος Ποινής Χρονικής Καθυστέρησης τ = 10−7 20 88.33 A3C-GAE Αριθμός Νημάτων = 32 LSTM Μηχανισμός Προσαρμογής Υπολογιστικού Χρόνου σε ΝΔΑ Παράμετρος Ποινής Χρονικής Καθυστέρησης τ = 10−7 20 72.032 A3C-GAE LSTM Μηχανισμός Προσαρμογής Υπολογιστικού Χρόνου σε ΝΔΑ Παράμετρος Ποινής Χρονικής Καθυστέρησης τ = 10−7 20 66.418 A3C-GAE Ρυθμός Μάθησης η = 5 · 10−5 LSTM Μηχανισμός Ενισχυτικής Μάθησης 20 65.808 A3C-GAE Ρυθμός Μάθησης η = 5 · 10−5 Αριθμός Νημάτων = 32 LSTM Μηχανισμός Ενισχυτικής Μάθησης 20 49.234 Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 26 / 30
  42. 42. 1. Εισαγωγή 2. Μεθοδολογία 3. Αποτελέσματα 4. Συμπεράσματα 4.1 Σύνοψη 4.2 Μελλοντικές Επεκτάσεις 4.3 Demo
  43. 43. Σύνοψη • Ανάπτυξη διαφορίσιμου δυναμικού μηχανισμού εστίασης. • Αποφασίζει πού θα στρέψει την προσοχή του ο πράκτορας. • Επιλέγει πότε θα σταματήσει να λαμβάνει παρατηρήσεις. Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 27 / 30
  44. 44. Σύνοψη • Ανάπτυξη διαφορίσιμου δυναμικού μηχανισμού εστίασης. • Αποφασίζει πού θα στρέψει την προσοχή του ο πράκτορας. • Επιλέγει πότε θα σταματήσει να λαμβάνει παρατηρήσεις. • Αξιολογούμε τον πράκτορα που σχεδιάσαμε σε ένα υποσύνολο των παιχνιδιών Atari 2600. • Εμφανίζει ανταγωνιστική συμπεριφορά. • Ωστόσο απαιτείται περαιτέρω βελτίωση για την επίτευξη της μέγιστης δυνατής απόδοσης. Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 27 / 30
  45. 45. 1. Εισαγωγή 2. Μεθοδολογία 3. Αποτελέσματα 4. Συμπεράσματα 4.1 Σύνοψη 4.2 Μελλοντικές Επεκτάσεις 4.3 Demo
  46. 46. Μελλοντικές Επεκτάσεις • Βελτίωση Αρχιτεκτονικής. • Bidirectional RNN. • Διαφορετικές συναρτήσεις ενεργοποίησης και τεχνικές κανονικοποίησης. Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 28 / 30
  47. 47. Μελλοντικές Επεκτάσεις • Βελτίωση Αρχιτεκτονικής. • Bidirectional RNN. • Διαφορετικές συναρτήσεις ενεργοποίησης και τεχνικές κανονικοποίησης. • Μεταβολή της διαδικασίας εκπαίδευσης. • Χρήση πιο αποτελεσματικών αλγορίθμων κλίσης πολιτικής. • Off-Policy training για τον αλγόριθμο επιλογής αριθμού ματιών. Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 28 / 30
  48. 48. Μελλοντικές Επεκτάσεις • Βελτίωση Αρχιτεκτονικής. • Bidirectional RNN. • Διαφορετικές συναρτήσεις ενεργοποίησης και τεχνικές κανονικοποίησης. • Μεταβολή της διαδικασίας εκπαίδευσης. • Χρήση πιο αποτελεσματικών αλγορίθμων κλίσης πολιτικής. • Off-Policy training για τον αλγόριθμο επιλογής αριθμού ματιών. • Προσθήκη δευτερευόντων στόχων μάθησης. • Πρόβλεψη μελλοντικών καταστάσεων, αμοιβών, κλπ. Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 28 / 30
  49. 49. Μελλοντικές Επεκτάσεις • Βελτίωση Αρχιτεκτονικής. • Bidirectional RNN. • Διαφορετικές συναρτήσεις ενεργοποίησης και τεχνικές κανονικοποίησης. • Μεταβολή της διαδικασίας εκπαίδευσης. • Χρήση πιο αποτελεσματικών αλγορίθμων κλίσης πολιτικής. • Off-Policy training για τον αλγόριθμο επιλογής αριθμού ματιών. • Προσθήκη δευτερευόντων στόχων μάθησης. • Πρόβλεψη μελλοντικών καταστάσεων, αμοιβών, κλπ. • Εφαρμογή σε νέα περιβάλλοντα. Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 28 / 30
  50. 50. 1. Εισαγωγή 2. Μεθοδολογία 3. Αποτελέσματα 4. Συμπεράσματα 4.1 Σύνοψη 4.2 Μελλοντικές Επεκτάσεις 4.3 Demo
  51. 51. Demo (αʹ) Μηχανισμός Επιλογής βημάτων με Ενισχυτική Μάθηση (βʹ) Μηχανισμός Προσαρμογής Υπολογιστικού Χρόνου σε ΝΔΑ Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 29 / 30
  52. 52. Σας ευχαριστώ για την προσοχή σας! Ερωτήσεις; Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 30 / 30
  53. 53. Κλίση Πολιτικής (Συνέχεια) Συνάρτηση Βάσης ∇θEτ [R(τ)] = Eτ [T−1∑ t=0 ∇θ log π (αt|st; θ) (T−1∑ t′=t rt′ − b(st) )] Για παράδειγμα: • b (st) = E [rt + rt+1 + rt+2 + · · · + rT−1] ≈ 1 m ∑m i=1 R(τi) Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 30 / 30
  54. 54. Κλίση Πολιτικής (Συνέχεια) Συνάρτηση Βάσης ∇θEτ [R(τ)] = Eτ [T−1∑ t=0 ∇θ log π (αt|st; θ) (T−1∑ t′=t rt′ − b(st) )] Για παράδειγμα: • b (st) = E [rt + rt+1 + rt+2 + · · · + rT−1] ≈ 1 m ∑m i=1 R(τi) Αλγόριθμοι Δράστη-Κριτή (Actor-Critic) ∇θEτ [R(τ)] = Eτ [T−1∑ t=0 ∇θ log π (αt|st; θ)Qπ (st, at) ] = Eτ [T−1∑ t=0 ∇θ log π (αt|st; θ)Aπ (st, at) ] Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 30 / 30
  55. 55. Κλίση Πολιτικής (Συνέχεια) Εκτίμηση Γενικευμένου Πλεονεκτήματος ˆA GAE(γ,λ) t = ∞∑ l=0 (γλ) δV t+l • δt = rt + γV(st+1) − V(st) • λ, γ παράμετροι που ελέγχουν πόλωση, διασπορά. • Επιλέγουμε: ˆAt = ∑∞ l=0 γlδV t+l = ∑∞ l=0 γlrt+l − V(st) Schulman, Moritz, Levine, Jordan, and Abbeel, «High-Dimensional Continuous Control Using Generalized Advantage Estimation», 2015 Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 30 / 30
  56. 56. Κλίση Πολιτικής (Συνέχεια) Εκτίμηση Γενικευμένου Πλεονεκτήματος ˆA GAE(γ,λ) t = ∞∑ l=0 (γλ) δV t+l • δt = rt + γV(st+1) − V(st) • λ, γ παράμετροι που ελέγχουν πόλωση, διασπορά. • Επιλέγουμε: ˆAt = ∑∞ l=0 γlδV t+l = ∑∞ l=0 γlrt+l − V(st) Schulman, Moritz, Levine, Jordan, and Abbeel, «High-Dimensional Continuous Control Using Generalized Advantage Estimation», 2015 Καλύτερη Εξερεύνηση ∇θEτ [R(τ)] = Eτ [T−1∑ t=0 ∇θ log π (αt|st; θ)Aπ (st, at) + β∇θH(π (αt|st; θ)) ] Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 30 / 30
  57. 57. Περιγραφή ΝΔΑ IRNN: Identity RNN ⃗ht = max(0, Wx⃗xt + Wh ⃗ht−1 + b) Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 30 / 30
  58. 58. Περιγραφή ΝΔΑ IRNN: Identity RNN ⃗ht = max(0, Wx⃗xt + Wh ⃗ht−1 + b) LSTM: Long Short-Term Memory ⃗it = σ(Wxi ⃗xt + Whi ⃗ht−1 +⃗bi) ⃗ft = σ(Wxf ⃗xt + Whf ⃗ht−1 +⃗bf) ⃗ot = σ(Wxo ⃗xt + Who ⃗ht−1 +⃗bo) ⃗gt = tanh(Wxg ⃗xt + Whg ⃗ht−1 +⃗bg) ⃗ct =⃗ft ⊙⃗ct−1 +⃗it ⊙⃗gt ⃗ht = ⃗ot ⊙ tanh(⃗ct) Hochreiter and Schmidhuber, Long Short-term Memory, 1997 Σχήμα: Δίκτυο Μακράς Βραχέας Μνήμης Πηγή: Chris Olah’s Blog: Understanding LSTM Networks http://colah.github.io/posts/ 2015-08-Understanding-LSTMs/ Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 30 / 30
  59. 59. Πιθανές Τιμές Υπέρ-Παραμέτρων Υπέρ-Παράμετροι Όνομα Παραμέτρου Τιμή Ρυθμός Μάθησης η = [ 10−5, 10−4 ] με βήμα 10−5 Μέγιστος Αριθμός Ματιών {5, 10, 15, 20} tmax {5, 10, 20, 32} Αλγόριθμος Βελτιστοποίησης Adam Kingma και Ba, «Adam: A Method for Stochastic Optimization», 2014 RMSProp Tieleman και Hinton, Lecture 6.5—RmsProp: Divide the gradient by a running average of its recent magnitude, 2012 Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 30 / 30
  60. 60. Πιθανές Τιμές Υπέρ-Παραμέτρων II Υπέρ-Παράμετροι Ρυθμός μάθησης Δικτύου Χωρικών Μετασχηματισμών { 10−3, 10−2, 10−1, 1 } · η Άνω φράγμα του μέτρου της κλίσης {5, 10} Βάρος όρου Εντροπίας β = { 10−2, 10−1, 1 } Βάρος όρου Εντροπίας Μηχανισμού Επιλογής Αριθμού Βλεμμάτων με Ενισχυτική Μάθηση βglimpse = 10−2 Βάρος συνάρτησης κανονικοποίησης πλέγματος Δικτύου Χωρικών Μετασχηματισμών λSTN Reg = { 10−7, 10−6, 10−5, 10−4, 10−3, 10−2, 10−1, 1.0 } Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 30 / 30
  61. 61. [1] Εξισώσεις Adam • mt = β1mt + (1 − β1) gt • υt = β2υt−1 + (1 − β2) g2 t • ˆmt = mt 1−(β1)t • ˆυt = υt 1−(β2)t • θt+1 = θt − η ˆmt√ ˆυt+ϵ Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 30 / 30

×