Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Μθχανιςμοί ενιςχυτικισ μάκθςθσκαι εξελικτικισ υπολογιςτικισ για     αυτόνομουσ πράκτορεσ       Κυριάκοσ Χ. Χατηθδθμθτρίου ...
ΠεριεχόμεναΕιςαγωγιΘεωρθτικό Υπόβακρο  • ΔΗΚ  • NEATΜεκοδολογία NEARΑξιολόγθςθ ΕπιδόςεωνΜεταφορά ΜάκθςθσΠρόβλεψθ Χρονοςειρ...
Ενότθτα 1Ειςαγωγι
Αυτόνομοι Πράκτορεσ           Agenda      Μζλλον Αυτόνομοι Πράκτορεσ                                4
Περιγραφι του Προβλιματοσ     Σθμαντικότεροσ ςτόχοσ ΤΝ ⇒ δθμιουργία αυτόνομων πρακτόρων             Κατάλλθλθ προςζγγιςθ ⇒...
Στόχοσ τθσ ΔιατριβισΣχεδίαςθ μιασ ικανισ μεκόδου προςαρμογισ, μιασπαραμετρικισ ςυνάρτθςθσ προςζγγιςθσ• Υψθλζσ επιδόςεισ ςε...
ΜεκοδολογίαΠροςεγγιςτικι Συνάρτθςθ                            Δίκτυα Ηχωικϊν Καταςτάςεων (Echo State Networks) (Function A...
Χαρακτθριςτικά Μεκόδου Μοντελοποίθςθ και μθ γραμμικϊν περιβαλλόντων Υποςτιριξθ και μθ Μαρκοβιανϊν ςθμάτων κατάςταςθσ Ατζρμ...
Ενότθτα 2Θεωρθτικό Υπόβακρο
Παράδειγμα Δικτφου Ηχωικϊν Καταςτάςεων                                K1    K2    N1        N2    N3                      ...
Δίκτυα Ηχωικϊν Καταςτάςεων                   Πρακτικι δθμιουργίασ ΔΗΚ                   • W αραιόσ                       •...
ΝΕΑΤ•   Μινιμαλιςτικι αρχικοποίθςθ    και περιπλοκι (Start minimally and    complexify)•   Μετάλλαξθ βαρϊν και τοπολογίασ ...
Ενότθτα 3NEAR
Αναπαράςταςθ γονιδιϊματοσΓονότυποσ (Direct encoding)Genome   Win      W      Wout       ρ   D                             ...
1. Αρχικοποίθςθ Πλθκυςμοφ               • Ν = 1 (XOR)               • D ∈ (0,1]               • ρ ∈(0,1)               • Α...
2. Αξιολόγθςθ Γονιδιϊματοσ                • Υπολογιςμόσ fitness για                  ζναν αρικμό επειςοδίων               ...
3. Ομαδοποίθςθ ςε είδθ και επιλογι                    Ομαδοποίθςθ με βάςθ μακροςκοπικά                    χαρακτθριςτικά τ...
4. Μετάλλαξθ• Μετάλλαξθ βαρϊν: perturbations και restarts• Μετάλλαξθ D και ρ• Προςκικθ κόμβου  -0.84  0    0              ...
5. Διαςταφρωςθ        0       0 . 83       0       0 . 94       0 . 34      0 . 42     0 . 67      0       0 . 34        0...
Τφποι εξζλιξθσ• Λαμαρκιανι (Lamarckian)  – Ο Wout μεταφζρεται από γενιά ςε γενιά• Δαρβίνια (Darwinian)  – Ο Wout δθμιουργε...
Ενότθτα 4Αξιολόγθςθ επιδόςεων καιςυμπεριφοράσ
Πλατφόρμα Αξιολόγθςθσ•    10 προβλιματα ενιςχυτικισ μάκθςθσ      –   50 runs ανά πρόβλθμα•    Cross-validation (supervised...
Προβλιματα και ΜζκοδοιΠ1. 2D Mountain Car – Markov              NEATΠ2. 2D Mountain Car – Non-Markov          NEAR+TD+LΠ3....
Αποτελζςματα       Π1-Π5                                           Π6-Π10Μζκοδοσ     GP μ(ranks)NEAT        3.8NEAR+TD+L  ...
Ενότθτα 5Μεταφορά Μάκθςθσ
Πρόβλθμα• Μεταφορά τθσ μάκθςθσ που αποκτικθκε ςε  μία πηγαία εργαςία για τθ διευκόλυνςθ τθσ  μάκθςθσ ςε μια άλλθ, διαφορετ...
Προβλιματα Αξιολόγθςθσ   Mountain Car                        Server Job Scheduling                                        ...
Μετρικζσ           28
Προςεγγίςεισ                                  Agnostic + Reservoir TransferInter-task mappings + Reservoir Transfer [TWS07...
Αποτελζςματα - Αςυμπτωτικι Συμπεριφορά     Εξζλιξθ    εξ’ αρχισΠροςεγγίςεισ μεταφοράσ  μάκθςθσ                          Στ...
Αποτελζςματα - Ταχφτθτα ςφγκλιςθσ3DMC-M                  SJS3DMC-NM                        Πιο ξεκάκαρθ διαφορά           ...
Ενότθτα 6Πρόβλεψθ χρονοςειρϊν
ΧρονοςειρζσMackey-Glass                          Multiple Superimposed                    Lorentz                  Oscilla...
Πλαίςιο αξιολόγθςθσ                                        Χρονοςειρά     W                                  Training     ...
ΑποτελζςματαMackey-Glass             Ηλεκτρικό φορτίο  Lorentz   MSO                                            35
Ενότθτα 7Διαχείριςθ εφοδιαςτικισ αλυςίδασ
Περιγραφι προβλιματοσΔθμοπραςίεσ τφπου:Sealed-bid first-price                                   37
ΣτόχοσΖνασ πράκτορασ ςτο διαγωνιςμό TAC SCM κα πρζπει: «Να πουλάει ςε όςο το δυνατόν υψθλότερθ τιμι και να αγοράηει ςε όςο...
Μθχανιςμόσ ΠλειοδοςίασΤιμι προςφοράσ• Για κάκε RFQ δϊςε μία τιμι προςφοράσ (bid)      Πικανότθτα αποδοχισ προςφορά      • ...
Pr(offer=accepted|bid) • Logistic Regression             1 f (z) =        -z                   ,       z = w1 x1 + w2 x2 +...
Τιμι προςφοράσ• Πρόβλεψθ από ιςτορικά δεδομζνα τιμισ αποδοχισ  – Regression Trees     • M5’     • CART• Βελτιςτοποίθςθ με ...
Προςζγγιςθ με NEAR• Μοντελοποίθςθ ευριςτικοφ ελζγχου ωσ MDP  – Ιδζα: Κακθμερινά κζλω να κερδίηω παραγγελίεσ    φψουσ 2000 ...
Αποτελζςματα       Adjusted Total Revenue ($M)            Μζςοσ όροσ κφκλων εργοςταςίουΕκπαίδευςθ: TAC SCM 2011 semifinals...
Ενότθτα 8Διαδικτυακζσ Διαφθμίςεισ
Περιγραφι Προβλιματοσ                        45
Ο πράκτορασ Mertacor                                     Βαςικι ςτρατθγικι: value-per-click      q              qbid   d 1...
Αρχικι Εκτίμθςθ• Simulation based game theoretical analysis  • Iterative best response equilibrium search                 ...
Βελτιωμζνθ προςζγγιςθ με NEAR• Αssociative n-armed bandit problem with  memory  – States: {VPC}  – Actions: α={0.2, 0.21, ...
Αποτελζςματα     Αποτελζςματα διαγωνιςμοφ                                        Στοχευμζνο πείραμα                       ...
Ενότθτα 9Poker
Περιγραφι παιχνιδιοφ                       1.   Preflop                       2.   Flop                       3.   Turn   ...
Περιγραφι προβλιματοσ• Εφρεςθ τθσ βζλτιςτθσ παιχνιδοκεωρθτικισ  μικτισ ςτρατθγικισ  – Πικανότθτεσ επιλογισ μίασ ενζργειασ ...
Μοντελοποίθςθ• Αντί των O(1018)  καταςτάςεων                                                      • Υπολογιςμοί           ...
Εκπαίδευςθ ΔΗΚ• TiltNet-100 and TiltNet-200  – 100 και 200 νευρϊνεσ ςτο ταμιευτιριο  – D = 0.15, ρ = 0.85  – 2,618 (218) κ...
Πειράματα και ΑξιολόγθςθTiltNet-100   Καλφτερα vs. PokiBot and SparbotTiltNet-200                 Τα περιςςότερα features ...
Ενότθτα 10Συμπεράςματα και ΜελλοντικζσΕπεκτάςεισ
ΣυμπεράςματαΓενικά:• NEAR, ιςοδφναμθ αν όχι καλφτερθ μζκοδοσ από αντίςτοιχεσ μεκόδουσ αιχμισ• Καλι γενίκευςθ και ευρωςτία ...
Μελλοντικζσ ΕπεκτάςεισΒελτιϊςεισ ςτθ μζκοδο NEAR     •     Leaky integrator neurons• Νζα προβλιματα               •     fe...
ΔθμοςιεφςεισΠεριοδικά με ςφςτθμα κριτϊν1. Kyriakos C. Chatzidimitriou and Pericles A. Mitkas. Adaptive Reservoir Computing...
Δθμοςιεφςεισ/ΔιακρίςεισΑνακοινϊςεισ ςε Συνζδρια με Κριτζσ χωρίσ Πρακτικά1. Kyriakos C. Chatzidimitriou, Fotis Psomopoulos,...
Ευχαριςτϊ
Upcoming SlideShare
Loading in …5
×

Μηχανισμοί Ενισχυτικής Μάθησης και Εξελικτικής Υπολογιστικής για Αυτόνομους Πράκτορες

569 views

Published on

Παρουσιάση της διδακτορικής μου διατριβής - My PhD thesis defense presentation "Reinforcement learning and evolutionary computing mechanisms for autonomous agents"

Published in: Technology
  • Be the first to comment

  • Be the first to like this

Μηχανισμοί Ενισχυτικής Μάθησης και Εξελικτικής Υπολογιστικής για Αυτόνομους Πράκτορες

  1. 1. Μθχανιςμοί ενιςχυτικισ μάκθςθσκαι εξελικτικισ υπολογιςτικισ για αυτόνομουσ πράκτορεσ Κυριάκοσ Χ. Χατηθδθμθτρίου Επιβλζπων: Κακθγθτισ Περικλισ Α. Μιτκασ Τμιμα Ηλεκτρολόγων Μθχανικϊν και Μθχανικϊν Υπολογιςτϊν ΑΠΘ
  2. 2. ΠεριεχόμεναΕιςαγωγιΘεωρθτικό Υπόβακρο • ΔΗΚ • NEATΜεκοδολογία NEARΑξιολόγθςθ ΕπιδόςεωνΜεταφορά ΜάκθςθσΠρόβλεψθ ΧρονοςειρϊνΕφαρμογι 1: Εφοδιαςτικι ΑλυςίδαΕφαρμογι 2: Διαδικτυακζσ ΔιαφθμίςεισΕφαρμογι 3: ΠόκερΣυμπεράςματα και Μελλοντικζσ Επεκτάςεισ 2
  3. 3. Ενότθτα 1Ειςαγωγι
  4. 4. Αυτόνομοι Πράκτορεσ Agenda Μζλλον Αυτόνομοι Πράκτορεσ 4
  5. 5. Περιγραφι του Προβλιματοσ Σθμαντικότεροσ ςτόχοσ ΤΝ ⇒ δθμιουργία αυτόνομων πρακτόρων Κατάλλθλθ προςζγγιςθ ⇒ ενιςχυτικι μάκθςθ Πραγματικόσ κόςμοσ ⇒ γενίκευςθ Παραμετρικζσ ςυναρτιςεισ προςζγγιςθσ ⇒ ανάγκθ ειδικϊν Προςαρμοηόμενεσ ςυναρτιςεισ προςζγγιςθσ 5
  6. 6. Στόχοσ τθσ ΔιατριβισΣχεδίαςθ μιασ ικανισ μεκόδου προςαρμογισ, μιασπαραμετρικισ ςυνάρτθςθσ προςζγγιςθσ• Υψθλζσ επιδόςεισ ςε ευρεία γκάμα προβλθμάτωνΑξιολόγθςθ τθσ μεκόδουΣυςτατικά• Παραμετρικι ςυνάρτθςθ προςζγγιςθσ• Μζκοδοσ προςαρμογισ 6
  7. 7. ΜεκοδολογίαΠροςεγγιςτικι Συνάρτθςθ Δίκτυα Ηχωικϊν Καταςτάςεων (Echo State Networks) (Function Approximator) • Δίκτυα με αναδράςεισ (RNN) Υβριδικι μζκοδοσ • Χρονικά, μθ-γραμμικά (Non-linear, Non-Markovian) (Hybrid method) • Γραμμικι μάκθςθ • Θεωρθτικά και πειραματικά αξιολογθμζνα • Τυχαίοσ τρόποσ δθμιουργίασ NeuroEvolution of Augmented Topologies (NEAT) Ενιςχυτικι • State-of-the-art neuroevolution μζκοδοσ Μάκθςθ • Ζλυςε προβλιματα: • Πρόωρθσ ςφγκλιςθσ • Ανταγωνιςτικϊν ςυμβάςεων • Βιολογικά βαςιςμζνθ και πειραματικά αξιολογθμζνθ μεκοδολογία • Ad-hoc δίκτυα, κλαςςικζσ μζκοδοι μάκθςθσ, όχι γραμμικά χαρακτθριςτικά Νευρωνικά Εξελικτικι Συνδυαςμόσ Μάκθςθσ και Εξζλιξθσ Δίκτυα Υπολογιςτικι • Βελτίωςθ μζτα-παραμζτρων • Ταυτόχρονθ ςυνολικι και τοπικι βελτιςτοποίθςθ Νευροεξζλιξθ (Neuroevolution) NEAR 7
  8. 8. Χαρακτθριςτικά Μεκόδου Μοντελοποίθςθ και μθ γραμμικϊν περιβαλλόντων Υποςτιριξθ και μθ Μαρκοβιανϊν ςθμάτων κατάςταςθσ Ατζρμονθ προςαρμογι (Open-ended) Αυτόνομθ προςαρμογι Δυναμικι προςαρμογι Θεωρθτικά/Πειραματικά τεκμθριωμζνα ςυςτατικά 8
  9. 9. Ενότθτα 2Θεωρθτικό Υπόβακρο
  10. 10. Παράδειγμα Δικτφου Ηχωικϊν Καταςτάςεων K1 K2 N1 N2 N3 -0.25 0.44 0.15 -0.87 0.04 L1 Wout = 0.33 -0.71 0.14 -0.56 0.11 L2 Κ1 K1 K2 N1 -0.25 0.45 N1 L1 Win = 0.15 0.05 N2 N2 -0.68 -0.22 N3 L2 Κ2 N3 N1 N2 N3 0.83 0 -0.45 N1 W= 0 0 0 N2 0.16 0 0 N3 10
  11. 11. Δίκτυα Ηχωικϊν Καταςτάςεων Πρακτικι δθμιουργίασ ΔΗΚ • W αραιόσ • D→0 • N >> 0 • μ(W) = 0 • ρ<1 • αδφναμοσ λευκόσ κόρυβοσ v Μάκθςθ  Προςαρμογι Wout • Linear Least Squares • SARSA μζςω gradient descent • Policy search μζςω CMA-ES 11
  12. 12. ΝΕΑΤ• Μινιμαλιςτικι αρχικοποίθςθ και περιπλοκι (Start minimally and complexify)• Μετάλλαξθ βαρϊν και τοπολογίασ (Weight & structural mutation)• Ομαδοποίθςθ ςε είδθ (Speciation) για τθν προςταςία καινοτομιϊν (clustering to protect innovation) – Καταπολζμθςθ πρόωρθσ ςφγκλιςθσ (battle premature convergence) 1 2 1 2 3 3• Διαςταφρωςθ (Crossover) δικτφων με ιςτορικι δεικτοδότθςθ (historical markings) ςτισ ςυνδζςεισ 1 2 3 12
  13. 13. Ενότθτα 3NEAR
  14. 14. Αναπαράςταςθ γονιδιϊματοσΓονότυποσ (Direct encoding)Genome Win W Wout ρ D Scale W ~ ρ Φαινότυποσ 14
  15. 15. 1. Αρχικοποίθςθ Πλθκυςμοφ • Ν = 1 (XOR) • D ∈ (0,1] • ρ ∈(0,1) • Αρχικοποίθςθ και με περιςςότερουσ νευρϊνεσ ταμιευτθρίου 15
  16. 16. 2. Αξιολόγθςθ Γονιδιϊματοσ • Υπολογιςμόσ fitness για ζναν αρικμό επειςοδίων • Δυνατότθτα μάκθςθσ κατά τθ διάρκεια των επειςοδίων – π.χ. SARSA TD-learning με GD 16
  17. 17. 3. Ομαδοποίθςθ ςε είδθ και επιλογι Ομαδοποίθςθ με βάςθ μακροςκοπικά χαρακτθριςτικά του δικτφου: Για κάκε γονιδίωμα - adjusted fitness: Για κάκε είδοσ - αρικμόσ απογόνων: Intra-species αναπαραγωγι και με μικρι πικανότθτα inter-species 17
  18. 18. 4. Μετάλλαξθ• Μετάλλαξθ βαρϊν: perturbations και restarts• Μετάλλαξθ D και ρ• Προςκικθ κόμβου -0.84 0 0 -0.84 0 0 0 1 0.55 0 0.25 0.55 0 0.25 0 2 -0.68 0.15 0 -0.68 0.15 0 0 0 0 0 0 3• Προςκικθ ςφνδεςθσ 4 -0.84 0 0 0 -0.84 0 0 0 0.55 0 0.25 0 0.55 0 0.25 0 -0.68 0.15 0 0 -0.68 0.15 0 -0.06 0 0 0 0 0 0 0 0 18
  19. 19. 5. Διαςταφρωςθ 0 0 . 83 0 0 . 94 0 . 34 0 . 42 0 . 67 0 0 . 34 0 0 . 84 0 0 0 0 . 63 0 . 03 0 0 0 . 55 0 0 . 25 0 . 38 0 0 0 0 0 . 68 0 . 15 0 0 0 0 . 68 0 0 0 0.83 0 0.94 -0.34 -0.84 0 0 Matching 0.42 -0.67 0 0.34 0 0.55 0 0.25 Disjoint 0 -0.63 0.03 0 0 -0.68 0.15 0 Excess Prune ~ D -0.38 0 0 0 0 0 0 -0.68 0 0Matching: Μζςοσ όροσ Ευκυγράμμιςθ ςτο επίπεδο τωνDisjoint: Κρατοφνται κόμβων με βάςθ τθν ιςτορικιExcess: Κρατοφνται αν επιλεγεί ο largest δεικτοδότθςθζναντι του fittest parent 19
  20. 20. Τφποι εξζλιξθσ• Λαμαρκιανι (Lamarckian) – Ο Wout μεταφζρεται από γενιά ςε γενιά• Δαρβίνια (Darwinian) – Ο Wout δθμιουργείται εκ νζου ςε κάκε γενιά – Baldwin effect: Η μάκθςθ βοθκάει να επιλζξει θ εξζλιξθ το γονιδίωμα που μακαίνει καλφτερα, ζτςι επικυμθτά χαρ/κά του δικτφου μεταφζρονται χωρίσ να μεταφζρεται και θ γνϊςθ που απζκτθςε 20
  21. 21. Ενότθτα 4Αξιολόγθςθ επιδόςεων καιςυμπεριφοράσ
  22. 22. Πλατφόρμα Αξιολόγθςθσ• 10 προβλιματα ενιςχυτικισ μάκθςθσ – 50 runs ανά πρόβλθμα• Cross-validation (supervised learning) – training + validation + test (unbiased) Αξιολόγθςθ • Μάκθςθ ενεργι Πλθκυςμοφ • 100 επειςόδια/γονιδίωμα Γενιάσ • Μζςοσ όροσ ςυνολικισ ανταμοιβισ (fitness) (Training) • Τυχαία επανεκκίνθςθ επειςοδίων Champion Αξιολόγθςθ • Μάκθςθ ανενεργι Πρωτακλθτϊν • 1000 επειςόδια/πρωτακλθτι (Validation) • Τυχαία επανεκκίνθςθ επειςοδίων Champion Performance Champion Αξιολόγθςθ of Champions • Μάκθςθ ανενεργι Πρωτακλθτι • 1000 επειςόδια Επιλεχκζν Πρωτακλθτϊν • Τυχαία επανεκκίνθςθ επειςοδίων δίκτυο (Testing) Generalization Performance 22
  23. 23. Προβλιματα και ΜζκοδοιΠ1. 2D Mountain Car – Markov NEATΠ2. 2D Mountain Car – Non-Markov NEAR+TD+LΠ3. 3D Mountain Car – Markov NEAR+TD+DΠ4. 3D Mountain Car – Non-Markov NEAR+PSΠ5. Server Job SchedulingΠ6. Single Pole Balancing – Markov ESNΠ7. Single Pole Balancing – Non-MarkovΠ8. Double Pole Balancing – MarkovΠ9. Double Pole Balancing – Non-MarkovΠ10. Double Pole Balancing – Non Markov NEAR+PS vs. 12 differentwith dumping fitness function algorithms [GMZ2006] 23
  24. 24. Αποτελζςματα Π1-Π5 Π6-Π10Μζκοδοσ GP μ(ranks)NEAT 3.8NEAR+TD+L 1.8NEAR+TD+D 3.2NEAR+PS 1.6ESN 4.8 • 1 επειςόδιο: solution found or not! • Όχι τυχαίεσ επανεκκινιςεισ • NEAR+PS • Μετρικι: # αξιολογθμζνων δικτφων Συμπεράςματα: • Στατιςτικι ςθμαντικότθτα ςτθν υπεροχι του NEAR ζναντι του NEAT και των ESN • Lamarckian evolution > Darwinian evolution • Περιςςότεροι νευρϊνεσ ςτα NM • μ(D) ~ 0.5 • Η βελτιςτοποίθςθ καταργεί τθν ζννοια του αραιοφ ΔΗΚ (Fully connected RNN) 24
  25. 25. Ενότθτα 5Μεταφορά Μάκθςθσ
  26. 26. Πρόβλθμα• Μεταφορά τθσ μάκθςθσ που αποκτικθκε ςε μία πηγαία εργαςία για τθ διευκόλυνςθ τθσ μάκθςθσ ςε μια άλλθ, διαφορετικι, άλλα ςχετικι, εργαςία ςτόχο• Σκοπόσ τθσ επζκταςθσ: – Εκμάκθςθ λφςεων του προβλιματοσ γρθγορότερα – Καλφτερθ αςυμπτωτικι ςυμπεριφορά 26
  27. 27. Προβλιματα Αξιολόγθςθσ Mountain Car Server Job Scheduling source target2D – Markov ⇒ 3D – Markov 2 τφπουσ εργαςιϊν ⇒ 4 τφπουσ εργαςιϊν2D – Non-Markov ⇒ 3D – Non-Markov 27
  28. 28. Μετρικζσ 28
  29. 29. Προςεγγίςεισ Agnostic + Reservoir TransferInter-task mappings + Reservoir Transfer [TWS07] Inter-task mappings + Reservoir Doubling 29
  30. 30. Αποτελζςματα - Αςυμπτωτικι Συμπεριφορά Εξζλιξθ εξ’ αρχισΠροςεγγίςεισ μεταφοράσ μάκθςθσ Στατιςτικά ςθμαντικι διαφορά 30
  31. 31. Αποτελζςματα - Ταχφτθτα ςφγκλιςθσ3DMC-M SJS3DMC-NM Πιο ξεκάκαρθ διαφορά 31
  32. 32. Ενότθτα 6Πρόβλεψθ χρονοςειρϊν
  33. 33. ΧρονοςειρζσMackey-Glass Multiple Superimposed Lorentz Oscillator Ηλεκτρικό φορτίο (ΔΕΣΜΗΕ) 33
  34. 34. Πλαίςιο αξιολόγθςθσ Χρονοςειρά W Training Val. TargetΕπιλογι καλφτερου δικτφου χωρίσ το validation set W W … W Πρόβλεψθ … Σφάλμα γενίκευςθ ςτο validation set W Πρόβλεψθ 34
  35. 35. ΑποτελζςματαMackey-Glass Ηλεκτρικό φορτίο Lorentz MSO 35
  36. 36. Ενότθτα 7Διαχείριςθ εφοδιαςτικισ αλυςίδασ
  37. 37. Περιγραφι προβλιματοσΔθμοπραςίεσ τφπου:Sealed-bid first-price 37
  38. 38. ΣτόχοσΖνασ πράκτορασ ςτο διαγωνιςμό TAC SCM κα πρζπει: «Να πουλάει ςε όςο το δυνατόν υψθλότερθ τιμι και να αγοράηει ςε όςο το δυνατόν χαμθλότερθ, διατθρϊντασ ςτο μζγιςτο τθ ρυκμαπόδοςθ (throughput) τόςο ςτο εργοςτάςιο όςο και ςτθν αποκικθ και αποφεφγοντασ τισ αςτοχίεσ ςτισ παραδόςεισ των υπολογιςτϊν» [CSM2008] 38
  39. 39. Μθχανιςμόσ ΠλειοδοςίασΤιμι προςφοράσ• Για κάκε RFQ δϊςε μία τιμι προςφοράσ (bid) Πικανότθτα αποδοχισ προςφορά • Για κάκε RFQ: Pr(accepted|bid) Εκτιμϊμενο Utility • U = Pr(accepted|bid) * bid / cycles Ταξινόμθςθ • Sort ~ Utility Επιλογι προςφορϊν • Επιλογι RFQs ζωσ τθ ςυμπλιρωςθ 2000 κφκλων • C += Pr(accepted|bid) * CRFQ 39
  40. 40. Pr(offer=accepted|bid) • Logistic Regression 1 f (z) = -z , z = w1 x1 + w2 x2 +... + wn xn 1+ eFeature wCurrent Date -0.19Base Price -0.67Due Date -1.26Quantity 0.80Max Price 17.96Min Price 1.61Total Quantity 0.52Reserve Price 2.39Offer Price -22.94 40
  41. 41. Τιμι προςφοράσ• Πρόβλεψθ από ιςτορικά δεδομζνα τιμισ αποδοχισ – Regression Trees • M5’ • CART• Βελτιςτοποίθςθ με ςμινοσ ςωματιδίων (Particle Swarm Optimization) – Κάκε ςωματίδιο αποτελεί μία λφςθ (p1,p2, … ,pn) – Προςομοίωςθ, 100 ςωμ. 100 επαν., 1’’• Ευριςτικόσ ζλεγχοσ με κανόνεσ – bid = f * max price – κανόνεσ μεταβολισ του f : factory utilization = 100% 41
  42. 42. Προςζγγιςθ με NEAR• Μοντελοποίθςθ ευριςτικοφ ελζγχου ωσ MDP – Ιδζα: Κακθμερινά κζλω να κερδίηω παραγγελίεσ φψουσ 2000 κφκλων εργοςταςίου και να ζχω 2000 κφκλουσ ςτθν ουρά – States: {WonCycles/Cap., QueuedCycles/Cap.} – Actions: f={0.9, 0.91, 0.92, … , 1.14, 1.15}, |f| = 16 – Scalar Reward: r = -[|(WonCycles – Cap)/Cap| + |(QueuedCycles – Cap)/Cap|)] 42
  43. 43. Αποτελζςματα Adjusted Total Revenue ($M) Μζςοσ όροσ κφκλων εργοςταςίουΕκπαίδευςθ: TAC SCM 2011 semifinals Στατιςτικά ςθμαντικι διαφοράΤεςτ: TAC SCM 2011 finals ςυνολικά και ανά δφοΜετρικι: Λαμβάνει υπόψιν τθν υπζρβαςθ των κφκλων (Friedman - Wilcoxon)του εργοςταςίου 43
  44. 44. Ενότθτα 8Διαδικτυακζσ Διαφθμίςεισ
  45. 45. Περιγραφι Προβλιματοσ 45
  46. 46. Ο πράκτορασ Mertacor Βαςικι ςτρατθγικι: value-per-click q qbid d 1 a v d 1 ^ ˆ v q q Pr { conversion | click } E [ revenue q | conversion ] ^ ^ | focused }( Iˆd 1 ) q q q Pr { conversion | click } focusedPer centage Pr { conversion Particle Filtering Game Theoretical Estimation Mertacor User State Heuristic Rule Estimation α Ad Selection VPC Estimation Ads Moving Average Bids Budget Id Estimation Reports CPC Estimation Budget Regression Monte Carlo Simulation 46
  47. 47. Αρχικι Εκτίμθςθ• Simulation based game theoretical analysis • Iterative best response equilibrium search α=0.33• Πολφ καλι τιμι (1θ κζςθ 2012), αλλά μιπωσ μποροφμε καλφτερα: π.χ. α ~ 0.25, – Στακερι (Fixed) Μεγάλα κζρδθ – Γραμμικι (Linear) – Μυωπικι (Myopic) 47
  48. 48. Βελτιωμζνθ προςζγγιςθ με NEAR• Αssociative n-armed bandit problem with memory – States: {VPC} – Actions: α={0.2, 0.21, 0.22, … , 0.39, 0.40}, |α| = 21 – Scalar Reward: r = revenue – CPC x #clicks• 50 οργανιςμοί, 50 γενιζσ• Βάρθ εξόδου με μάκθςθ από τα ιςτορικά δεδομζνα: – ~100Κ tuples – VPC, α, r 48
  49. 49. Αποτελζςματα Αποτελζςματα διαγωνιςμοφ Στοχευμζνο πείραμα Δφο τφποι TAC AA 2012 Mertacor και διάφοροι α=0.33 πράκτορεσ α=0.3 +α=0.33 +Budget Estimation+Particle Filtering Εκπαίδευςθ NEAR α=0.33 Τελικά Προθμιτελικά Ημιτελικά Μικρό κζρδοσ αλλά εξαιρετικά χριςιμο ςε πολφ ανταγωνιςτικά περιβάλλοντα 49
  50. 50. Ενότθτα 9Poker
  51. 51. Περιγραφι παιχνιδιοφ 1. Preflop 2. Flop 3. Turn 4. River 51
  52. 52. Περιγραφι προβλιματοσ• Εφρεςθ τθσ βζλτιςτθσ παιχνιδοκεωρθτικισ μικτισ ςτρατθγικισ – Πικανότθτεσ επιλογισ μίασ ενζργειασ {Fold, Check/Call, Bet/Raise} – Στρατθγικι που κανείσ δεν μπορεί να εκμεταλλευτεί• Διάςτθμα αναηιτθςθσ: O(1018)• Αφαιρετικό μοντζλο – Π.χ. PsOpti O(107), pseudo-optimal 52
  53. 53. Μοντελοποίθςθ• Αντί των O(1018) καταςτάςεων • Υπολογιςμοί • Normalization χρθςιμοποιοφμε το Χαρακτθριςτικό Πικανότθτα να ζχουμε καλφτερο Διάνυςμα χαρακτθριςτικό διάνυςμα: φφλλο ςτο ςυγκεκριμζνο γφρο από όλα τα τυχαία φφλλα που μπορεί να 1. Hand Strength ζχει ο αντίπαλοσ • Chen’s pre-flop formula • Δθμιουργία χρονικϊν, μθ- γραμμικϊν χαρακτθριςτικϊν 2. Effective Hand Strength HS, PP, NP PP: Η πικανότθτα το•φφλλο μασ να 2 ζξοδοι: Q(check/call), Q(bet/raise) 3. Preflop βελτιωκεί ΔΗΚ όλωνQ(fold) υπολογίηεται απευκείασ ζναντι • των τυχαίων 4. Flop ςυνδυαςμϊν των φφλλων του αντιπάλου 5. Turn ΝP: Ομοίωσ να χειροτερεφςει 6. River • Softmax: Values to Probabilities 7. Pot Mixed • Roulette wheel κόςτοσ call / (κόςτοσ call + ποςό pot) 8. Pot-odds Strategy 9. Dealer button 53
  54. 54. Εκπαίδευςθ ΔΗΚ• TiltNet-100 and TiltNet-200 – 100 και 200 νευρϊνεσ ςτο ταμιευτιριο – D = 0.15, ρ = 0.85 – 2,618 (218) και 7,218 (418) βάρθ• 800Κ hands – Showdown – Κάκε hand μπορεί να ζχει διαφορετικό αρικμό δειγμάτων• 30 περάςματα – Iterative learning gradient descent 54
  55. 55. Πειράματα και ΑξιολόγθςθTiltNet-100 Καλφτερα vs. PokiBot and SparbotTiltNet-200 Τα περιςςότερα features αυξάνουν τθν ικανότθτα του δικτφου απζναντι ςε μθ προβλζψιμουσ αντιπάλουσ (καλφτερθ δυνατότθτα γενίκευςθσ) Τα περιςςότερα features TiltNet-100 αυξάνουν τουσ χρόνουσ 3h 30’ εκπαίδευςθσ TiltNet-200 12h 50’ 3.5 1000 55
  56. 56. Ενότθτα 10Συμπεράςματα και ΜελλοντικζσΕπεκτάςεισ
  57. 57. ΣυμπεράςματαΓενικά:• NEAR, ιςοδφναμθ αν όχι καλφτερθ μζκοδοσ από αντίςτοιχεσ μεκόδουσ αιχμισ• Καλι γενίκευςθ και ευρωςτία ςε πλειάδα εφαρμογϊν• Τεχνικζσ μάκθςθσ για ακρίβεια ςτισ εκτιμιςεισ• Τεχνικζσ εξζλιξθσ για προβλιματα ενιςχυτικισ μάκθςθσ• Γζφυρα ανάμεςα ςτα ΔΗΚ και τα πλιρωσ ςυνδεδεμζνα RNN • Βελτιςτοποιθμζνα μθ-γραμμικά χρονικά χαρακτθριςτικά που εκπαιδεφονται με γραμμικό τρόποΜεταφορά Μάκθςθσ:• Βελτίωςθ τθσ αςυμπτωτικισ ςυμπεριφοράσ και τθσ ταχφτθτασ ςφγκλιςθσ• Μικρά περικϊρια βελτίωςθσ ςτα υπό μελζτθ προβλιματαΠρόβλεψθ Χρονοςειρϊν:• Ακριβείσ προβλζψεισ• Απαίτθςθ για “loosely-coupled clusters of closely-coupled nodes”Εφαρμογζσ: Πόκερ:• Τμιμα τθσ διαδικαςίασ λιψθσ αποφάςεων • Εφρεςθ βαςικϊν μικτϊν ςτρατθγικϊν• Βελτίωςθ τθσ απόδοςθσ των πρακτόρων • Απαίτθςθ για ειδικό software/hardware 57
  58. 58. Μελλοντικζσ ΕπεκτάςεισΒελτιϊςεισ ςτθ μζκοδο NEAR • Leaky integrator neurons• Νζα προβλιματα • feedback connectivity • RLS-TD • • LSPI intrinsic plasticity• Επζκταςθ μοντζλου ΔΗΚ• Gaussian • • iLSTD multiple read-out functions• Μζκοδοι μάκθςθσ mutation • GQ • PEGASUS • CMA-ES• Συνεξζλιξθ• Μθ-ςτάςιμα περιβάλλονταΜεταφορά Μάκθςθσ• Πιο περίπλοκα προβλιματα• Inter-domain transfer learningSCM & ΑΑ Agents• Βελτιϊςεισ ςτουσ αλγορίκμουσ βελτιςτοποίθςθσ και εκτίμθςθσ• Ενιςχυτικι μάκθςθ με ςυνεχείσ ενζργειεσΠόκερ• Bias-Variance trade-off• Map-reduce• Μοντελοποίθςθ αντιπάλου• Ring/No-limit games 58
  59. 59. ΔθμοςιεφςεισΠεριοδικά με ςφςτθμα κριτϊν1. Kyriakos C. Chatzidimitriou and Pericles A. Mitkas. Adaptive Reservoir Computing through Learning and Evolution. Neurocomputing, Elsevier, Available online. (1.840)2. Kyriakos C. Chatzidimitriou and Andreas L. Symeonidis. Agents in Dynamic Supply Chain Management Environments: Data Mining-Driven Design Choices. Intelligent Systems, 24(3):54–63, 2009. Special issue on Agents and Data Mining. (2.693)3. Kyriakos C. Chatzidimitriou, Andreas L. Symeonidis, Ioannis Kontogounis, and Pericles A. Mitkas. Agent Mertacor: A robust design for dealing with uncertainty and variation in SCM environments. Expert Systems with Applications, 35(3):591–603, October 2008. (2.539)Πρακτικά ςυνεδρίων με ςφςτθμα κριτϊν1. Kyriakos C. Chatzidimitriou, Andreas L. Symeonidis, and Pericles A. Mitkas. Policy search through adaptive function approximation for bidding in TAC SCM. In Trading Agent Design and Analysis (TADA) 2012 Workshop held in conjunction with the International Conference on AAMAS 2012, Lecture Notes in Business Information Processing, Springer, 2012.2. Kyriakos C. Chatzidimitriou, Ioannis Partalas, Pericles A. Mitkas, and Ioannis Vlahavas. Transferring evolved reservoir features in reinforcement learning tasks. In European Workshop on Reinforcement Learning, Lecture Notes in Computer Science, Volume 7188, pages 213-224, 2011.3. Kyriakos C. Chatzidimitriou, Antonios C. Chrysopoulos, Andreas L. Symeonidis, and Pericles A. Mitkas. Enhancing agent intelligence through evolving reservoir networks for prediction in power stock markets. In Agent and Data Mining Interaction 2011 Workshop held in conjunction with the conference on AAMAS 2011, 2011.4. Kyriakos C. Chatzidimitriou, Lampros C. Stavrogiannis, Andreas L. Symeonidis, and Pericles A. Mitkas. An adaptive proportional value-per-click agent for bidding in ad auctions. In Trading Agent Design and Analysis (TADA) 2011 Workshop held in conjunction with IJCAI 2011, 2011.5. Michalis Tsapanos, Kyriakos C. Chatzidimitriou, and Pericles A. Mitkas. A zeroth-level classifier system for real time strategy games. In 2011 IEEE/WIC/ACM International Conference on Intelligent Agent Technology, volume 2, pages 244–247, 2011.6. Kyriakos C. Chatzidimitriou and Pericles A. Mitkas. A neat way for evolving echo state networks. In European Conference on Artificial Intelligence, IOS Press, August 2010.7. Kyriakos C. Chatzidimitriou, Andreas L. Symeonidis, and Pericles A. Mitkas. Data mining-driven analysis and decomposition in agent supply chain management networks. In IEEE/WIC/ACM Workshop on Agents and Data Mining Interaction, Sydney, Australia, 9-12 December 2008. 59
  60. 60. Δθμοςιεφςεισ/ΔιακρίςεισΑνακοινϊςεισ ςε Συνζδρια με Κριτζσ χωρίσ Πρακτικά1. Kyriakos C. Chatzidimitriou, Fotis Psomopoulos, and Pericles A. Mitkas. Grid-enabled parameter initialization for high performance machine learning tasks. In 5th EGEE User Forum, April 2010.2. Christos Dimou, Kyriakos C. Chatzidimitriou, Andreas L. Symeonidis, and Pericles A. Mitkas. Creating and reusing metric graphs for evaluating agent performance in the supply chain management domain. In First Workshop on Knowledge Reuse (KREUSE’2008) hosted at the 10th International Conference on Software Reuse, Beijing (China), May 25-29 2008.Διακρίςεισ• 1θ κζςθ ςτον παγκόςμιο διαγωνιςμό ςυναλλαγϊν και εμπορίου με πράκτορεσ λογιςμικοφ – διαδικτυακϊν διαφθμίςεων (Trading Agent Competition – TAC 2012, Ad Auctions game)• Συμμετοχι ςτα τελικά του φοιτθτικοφ διαγωνιςμοφ business plan, e-nnovation 2011, (πρόκριςθ ςτισ 16 κορυφαίεσ από 102 ομάδεσ)• 3θ κζςθ ςτον παγκόςμιο διαγωνιςμό ελεγκτϊν Pac-Man, 2011• 3θ κζςθ ςτον παγκόςμιο διαγωνιςμό ςυναλλαγϊν και εμπορίου με πράκτορεσ λογιςμικοφ – διαδικτυακϊν διαφθμίςεων (Trading Agent Competition – TAC 2010, Ad Auctions game)• Υποτροφία Αριςτείασ για υποψιφιουσ διδάκτορεσ, 2009, Επιτροπι Ερευνϊν, Α.Π.Θ. 60
  61. 61. Ευχαριςτϊ

×