SlideShare a Scribd company logo
1 of 61
Μθχανιςμοί ενιςχυτικισ μάκθςθσ
και εξελικτικισ υπολογιςτικισ για
     αυτόνομουσ πράκτορεσ
       Κυριάκοσ Χ. Χατηθδθμθτρίου

    Επιβλζπων: Κακθγθτισ Περικλισ Α. Μιτκασ
  Τμιμα Ηλεκτρολόγων Μθχανικϊν και Μθχανικϊν Υπολογιςτϊν
                          ΑΠΘ
Περιεχόμενα

Ειςαγωγι

Θεωρθτικό Υπόβακρο
  • ΔΗΚ
  • NEAT
Μεκοδολογία NEAR

Αξιολόγθςθ Επιδόςεων

Μεταφορά Μάκθςθσ

Πρόβλεψθ Χρονοςειρϊν

Εφαρμογι 1: Εφοδιαςτικι Αλυςίδα

Εφαρμογι 2: Διαδικτυακζσ Διαφθμίςεισ

Εφαρμογι 3: Πόκερ

Συμπεράςματα και Μελλοντικζσ Επεκτάςεισ


                                          2
Ενότθτα 1

Ειςαγωγι
Αυτόνομοι Πράκτορεσ


           Agenda      Μζλλον




 Αυτόνομοι Πράκτορεσ




                                4
Περιγραφι του Προβλιματοσ

     Σθμαντικότεροσ ςτόχοσ ΤΝ ⇒ δθμιουργία αυτόνομων πρακτόρων




             Κατάλλθλθ προςζγγιςθ ⇒ ενιςχυτικι μάκθςθ




                  Πραγματικόσ κόςμοσ ⇒ γενίκευςθ




                     Παραμετρικζσ ςυναρτιςεισ
                      προςζγγιςθσ ⇒ ανάγκθ
                             ειδικϊν

                         Προςαρμοηόμενεσ
                           ςυναρτιςεισ
                           προςζγγιςθσ
                                                                 5
Στόχοσ τθσ Διατριβισ

Σχεδίαςθ μιασ ικανισ μεκόδου προςαρμογισ, μιασ
παραμετρικισ ςυνάρτθςθσ προςζγγιςθσ
• Υψθλζσ επιδόςεισ ςε ευρεία γκάμα προβλθμάτων


Αξιολόγθςθ τθσ μεκόδου


Συςτατικά

• Παραμετρικι ςυνάρτθςθ προςζγγιςθσ
• Μζκοδοσ προςαρμογισ

                                                 6
Μεκοδολογία
Προςεγγιςτικι Συνάρτθςθ                            Δίκτυα Ηχωικϊν Καταςτάςεων (Echo State Networks)
 (Function Approximator)                            • Δίκτυα με αναδράςεισ (RNN)
                           Υβριδικι μζκοδοσ         • Χρονικά, μθ-γραμμικά (Non-linear, Non-Markovian)
                           (Hybrid method)          • Γραμμικι μάκθςθ
                                                    • Θεωρθτικά και πειραματικά αξιολογθμζνα
                                                    • Τυχαίοσ τρόποσ δθμιουργίασ
                                                   NeuroEvolution of Augmented Topologies (NEAT)
                   Ενιςχυτικι                       • State-of-the-art neuroevolution μζκοδοσ
                    Μάκθςθ                          • Ζλυςε προβλιματα:
                                                      • Πρόωρθσ ςφγκλιςθσ
                                                      • Ανταγωνιςτικϊν ςυμβάςεων
                                                    • Βιολογικά βαςιςμζνθ και πειραματικά αξιολογθμζνθ μεκοδολογία
                                                    • Ad-hoc δίκτυα, κλαςςικζσ μζκοδοι μάκθςθσ, όχι γραμμικά χαρακτθριςτικά
        Νευρωνικά            Εξελικτικι            Συνδυαςμόσ Μάκθςθσ και Εξζλιξθσ
          Δίκτυα            Υπολογιςτικι
                                                    • Βελτίωςθ μζτα-παραμζτρων
                                                    • Ταυτόχρονθ ςυνολικι και τοπικι βελτιςτοποίθςθ




                                Νευροεξζλιξθ
                                (Neuroevolution)
               NEAR
                                                                                                                     7
Χαρακτθριςτικά Μεκόδου
 Μοντελοποίθςθ και μθ γραμμικϊν περιβαλλόντων

 Υποςτιριξθ και μθ Μαρκοβιανϊν ςθμάτων
 κατάςταςθσ

 Ατζρμονθ προςαρμογι (Open-ended)


 Αυτόνομθ προςαρμογι


 Δυναμικι προςαρμογι


 Θεωρθτικά/Πειραματικά τεκμθριωμζνα ςυςτατικά
                                                8
Ενότθτα 2

Θεωρθτικό Υπόβακρο
Παράδειγμα Δικτφου Ηχωικϊν Καταςτάςεων
                                K1    K2    N1        N2    N3
                               -0.25 0.44 0.15 -0.87 0.04        L1
                      Wout =
                                0.33 -0.71 0.14 -0.56 0.11       L2


                                     Κ1
        K1   K2
                                                      N1
       -0.25 0.45    N1                                               L1
 Win = 0.15 0.05     N2
                                                            N2
       -0.68 -0.22   N3
                                                                      L2
                                     Κ2               N3



                                      N1   N2    N3
                                  0.83 0 -0.45             N1
                               W= 0    0   0               N2
                                  0.16 0   0               N3

                                                                           10
Δίκτυα Ηχωικϊν Καταςτάςεων
                   Πρακτικι δθμιουργίασ ΔΗΚ
                   • W αραιόσ
                       • D→0
                   • N >> 0
                   • μ(W) = 0
                   • ρ<1
                   • αδφναμοσ λευκόσ κόρυβοσ v



                   Μάκθςθ  Προςαρμογι Wout
                   • Linear Least Squares
                   • SARSA μζςω gradient descent
                   • Policy search μζςω CMA-ES




                                           11
ΝΕΑΤ
•   Μινιμαλιςτικι αρχικοποίθςθ
    και περιπλοκι (Start minimally and
    complexify)




•   Μετάλλαξθ βαρϊν και τοπολογίασ
    (Weight & structural mutation)


•   Ομαδοποίθςθ ςε είδθ (Speciation) για
    τθν προςταςία καινοτομιϊν (clustering to
    protect innovation)
     – Καταπολζμθςθ πρόωρθσ ςφγκλιςθσ
         (battle premature convergence)

                                               1       2               1       2
                                                   3
                                                                           3
•   Διαςταφρωςθ (Crossover) δικτφων με
    ιςτορικι δεικτοδότθςθ (historical
    markings) ςτισ ςυνδζςεισ
                                                           1       2
                                                               3

                                                                                   12
Ενότθτα 3

NEAR
Αναπαράςταςθ γονιδιϊματοσ

Γονότυποσ (Direct encoding)
Genome

   Win      W      Wout       ρ   D

                                      Scale W ~ ρ


                                         Φαινότυποσ




                                                      14
1. Αρχικοποίθςθ Πλθκυςμοφ

               • Ν = 1 (XOR)
               • D ∈ (0,1]
               • ρ ∈(0,1)




               • Αρχικοποίθςθ και με
                 περιςςότερουσ νευρϊνεσ
                 ταμιευτθρίου

                                          15
2. Αξιολόγθςθ Γονιδιϊματοσ

                • Υπολογιςμόσ fitness για
                  ζναν αρικμό επειςοδίων
                • Δυνατότθτα μάκθςθσ κατά
                  τθ διάρκεια των επειςοδίων
                   – π.χ. SARSA TD-learning με GD




                                              16
3. Ομαδοποίθςθ ςε είδθ και επιλογι

                    Ομαδοποίθςθ με βάςθ μακροςκοπικά
                    χαρακτθριςτικά του δικτφου:




                    Για κάκε γονιδίωμα - adjusted fitness:




                    Για κάκε είδοσ - αρικμόσ απογόνων:




                     Intra-species αναπαραγωγι και με μικρι
                     πικανότθτα inter-species
                                                         17
4. Μετάλλαξθ

• Μετάλλαξθ βαρϊν: perturbations και restarts
• Μετάλλαξθ D και ρ
• Προςκικθ κόμβου
  -0.84  0    0                 -0.84  0    0   0     1
   0.55  0   0.25                0.55  0   0.25 0
                                                              2
  -0.68 0.15 0                  -0.68 0.15  0   0
                                  0    0    0   0     3


• Προςκικθ ςφνδεςθσ
                                                          4



 -0.84  0    0   0            -0.84  0    0     0
  0.55  0   0.25 0             0.55  0   0.25   0
 -0.68 0.15  0   0            -0.68 0.15 0    -0.06
   0    0    0   0              0    0    0     0


                                                                  18
5. Διαςταφρωςθ

        0       0 . 83       0       0 . 94       0 . 34
      0 . 42     0 . 67      0       0 . 34        0
                                                                         0 . 84       0        0
        0        0 . 63    0 . 03      0           0
                                                                       0 . 55         0      0 . 25
       0 . 38     0          0         0           0
                                                                         0 . 68     0 . 15     0
        0         0         0 . 68     0           0




                            0            0.83               0
                                                                  0.94 -0.34
                          -0.84           0                 0                                Matching
                          0.42         -0.67                0
                                                                  0.34          0
                          0.55           0                 0.25                              Disjoint
                            0          -0.63               0.03
                                                                   0            0
                          -0.68         0.15                0                                Excess                      Prune ~ D
                          -0.38               0          0         0            0
                            0                 0        -0.68       0            0


Matching: Μζςοσ όροσ
                                                                                                      Ευκυγράμμιςθ ςτο επίπεδο των
Disjoint: Κρατοφνται
                                                                                                      κόμβων με βάςθ τθν ιςτορικι
Excess: Κρατοφνται αν επιλεγεί ο largest
                                                                                                      δεικτοδότθςθ
ζναντι του fittest parent                                                                                                            19
Τφποι εξζλιξθσ

• Λαμαρκιανι (Lamarckian)
  – Ο Wout μεταφζρεται από γενιά ςε γενιά
• Δαρβίνια (Darwinian)
  – Ο Wout δθμιουργείται εκ νζου ςε κάκε γενιά
  – Baldwin effect: Η μάκθςθ βοθκάει να επιλζξει θ
    εξζλιξθ το γονιδίωμα που μακαίνει καλφτερα,
    ζτςι επικυμθτά χαρ/κά του δικτφου μεταφζρονται
    χωρίσ να μεταφζρεται και θ γνϊςθ που απζκτθςε


                                                 20
Ενότθτα 4

Αξιολόγθςθ επιδόςεων και
ςυμπεριφοράσ
Πλατφόρμα Αξιολόγθςθσ
•    10 προβλιματα ενιςχυτικισ μάκθςθσ
      –   50 runs ανά πρόβλθμα
•    Cross-validation (supervised learning)
      – training + validation + test (unbiased)

     Αξιολόγθςθ        • Μάκθςθ ενεργι
     Πλθκυςμοφ         • 100 επειςόδια/γονιδίωμα
        Γενιάσ         • Μζςοσ όροσ ςυνολικισ ανταμοιβισ (fitness)
      (Training)       • Τυχαία επανεκκίνθςθ επειςοδίων

                                                                      Champion

     Αξιολόγθςθ        • Μάκθςθ ανενεργι
    Πρωτακλθτϊν        • 1000 επειςόδια/πρωτακλθτι
     (Validation)      • Τυχαία επανεκκίνθςθ επειςοδίων
                                                                                     Champion
                                                                                    Performance
                                                                       Champion
     Αξιολόγθςθ                                                      of Champions
                       • Μάκθςθ ανενεργι
    Πρωτακλθτι         • 1000 επειςόδια                               Επιλεχκζν
    Πρωτακλθτϊν        • Τυχαία επανεκκίνθςθ επειςοδίων                δίκτυο
      (Testing)

                                                   Generalization
                                                    Performance                           22
Προβλιματα και Μζκοδοι



Π1. 2D Mountain Car – Markov              NEAT
Π2. 2D Mountain Car – Non-Markov          NEAR+TD+L
Π3. 3D Mountain Car – Markov              NEAR+TD+D
Π4. 3D Mountain Car – Non-Markov
                                          NEAR+PS
Π5. Server Job Scheduling
Π6. Single Pole Balancing – Markov        ESN
Π7. Single Pole Balancing – Non-Markov
Π8. Double Pole Balancing – Markov
Π9. Double Pole Balancing – Non-Markov
Π10. Double Pole Balancing – Non Markov   NEAR+PS vs. 12 different
with dumping fitness function             algorithms [GMZ2006]



                                                                     23
Αποτελζςματα
       Π1-Π5                                           Π6-Π10
Μζκοδοσ     GP μ(ranks)
NEAT        3.8
NEAR+TD+L   1.8
NEAR+TD+D 3.2
NEAR+PS     1.6
ESN         4.8                            •   1 επειςόδιο: solution found or not!
                                           •   Όχι τυχαίεσ επανεκκινιςεισ
                                           •   NEAR+PS
                                           •   Μετρικι: # αξιολογθμζνων δικτφων
 Συμπεράςματα:
 • Στατιςτικι ςθμαντικότθτα ςτθν υπεροχι του NEAR ζναντι του NEAT και των ESN
 • Lamarckian evolution > Darwinian evolution
 • Περιςςότεροι νευρϊνεσ ςτα NM
 • μ(D) ~ 0.5
 • Η βελτιςτοποίθςθ καταργεί τθν ζννοια του αραιοφ ΔΗΚ (Fully connected RNN)

                                                                                 24
Ενότθτα 5

Μεταφορά Μάκθςθσ
Πρόβλθμα

• Μεταφορά τθσ μάκθςθσ που αποκτικθκε ςε
  μία πηγαία εργαςία για τθ διευκόλυνςθ τθσ
  μάκθςθσ ςε μια άλλθ, διαφορετικι, άλλα
  ςχετικι, εργαςία ςτόχο
• Σκοπόσ τθσ επζκταςθσ:
  – Εκμάκθςθ λφςεων του προβλιματοσ
    γρθγορότερα
  – Καλφτερθ αςυμπτωτικι ςυμπεριφορά

                                              26
Προβλιματα Αξιολόγθςθσ
   Mountain Car                        Server Job Scheduling




                                                                   source




                                                                target




2D – Markov ⇒ 3D – Markov
                                    2 τφπουσ εργαςιϊν ⇒ 4 τφπουσ εργαςιϊν
2D – Non-Markov ⇒ 3D – Non-Markov
                                                                            27
Μετρικζσ




           28
Προςεγγίςεισ

                                  Agnostic + Reservoir Transfer




Inter-task mappings + Reservoir Transfer [TWS07]




                                     Inter-task mappings + Reservoir Doubling




                                                                                29
Αποτελζςματα - Αςυμπτωτικι Συμπεριφορά


     Εξζλιξθ
    εξ’ αρχισ



Προςεγγίςεισ
 μεταφοράσ
  μάκθςθσ




                          Στατιςτικά ςθμαντικι διαφορά




                                                         30
Αποτελζςματα - Ταχφτθτα ςφγκλιςθσ
3DMC-M



                  SJS




3DMC-NM




                        Πιο ξεκάκαρθ διαφορά



                                               31
Ενότθτα 6

Πρόβλεψθ χρονοςειρϊν
Χρονοςειρζσ




Mackey-Glass                          Multiple Superimposed
                    Lorentz                  Oscillator




                              Ηλεκτρικό φορτίο
                                 (ΔΕΣΜΗΕ)


                                                              33
Πλαίςιο αξιολόγθςθσ
                                        Χρονοςειρά

     W                                  Training               Val.

                                            Target

Επιλογι καλφτερου δικτφου χωρίσ το validation set
     W               W                        …          W
         Πρόβλεψθ
                                                     …




  Σφάλμα γενίκευςθ ςτο validation set
                                        W                    Πρόβλεψθ



                                                                  34
Αποτελζςματα
Mackey-Glass             Ηλεκτρικό φορτίο




  Lorentz




   MSO




                                            35
Ενότθτα 7

Διαχείριςθ εφοδιαςτικισ αλυςίδασ
Περιγραφι προβλιματοσ




Δθμοπραςίεσ τφπου:
Sealed-bid first-price



                                   37
Στόχοσ

Ζνασ πράκτορασ ςτο διαγωνιςμό TAC SCM κα πρζπει: «Να πουλάει ςε όςο το
 δυνατόν υψθλότερθ τιμι και να αγοράηει ςε όςο το δυνατόν χαμθλότερθ,
     διατθρϊντασ ςτο μζγιςτο τθ ρυκμαπόδοςθ (throughput) τόςο ςτο
   εργοςτάςιο όςο και ςτθν αποκικθ και αποφεφγοντασ τισ αςτοχίεσ ςτισ
               παραδόςεισ των υπολογιςτϊν» [CSM2008]




                                                                    38
Μθχανιςμόσ Πλειοδοςίασ
Τιμι προςφοράσ
• Για κάκε RFQ δϊςε μία τιμι προςφοράσ (bid)



      Πικανότθτα αποδοχισ προςφορά
      • Για κάκε RFQ: Pr(accepted|bid)



            Εκτιμϊμενο Utility
            • U = Pr(accepted|bid) * bid / cycles



                   Ταξινόμθςθ
                   • Sort ~ Utility



                          Επιλογι προςφορϊν
                          • Επιλογι RFQs ζωσ τθ ςυμπλιρωςθ 2000 κφκλων
                          • C += Pr(accepted|bid) * CRFQ
                                                                         39
Pr(offer=accepted|bid)

 • Logistic Regression
             1
 f (z) =        -z
                   ,       z = w1 x1 + w2 x2 +... + wn xn
           1+ e
Feature                w
Current Date           -0.19
Base Price             -0.67
Due Date               -1.26
Quantity               0.80
Max Price              17.96
Min Price              1.61
Total Quantity         0.52
Reserve Price          2.39
Offer Price            -22.94                               40
Τιμι προςφοράσ

• Πρόβλεψθ από ιςτορικά δεδομζνα τιμισ αποδοχισ
  – Regression Trees
     • M5’
     • CART
• Βελτιςτοποίθςθ με ςμινοσ ςωματιδίων (Particle
  Swarm Optimization)
  – Κάκε ςωματίδιο αποτελεί μία λφςθ (p1,p2, … ,pn)
  – Προςομοίωςθ, 100 ςωμ. 100 επαν., 1’’
• Ευριςτικόσ ζλεγχοσ με κανόνεσ
  – bid = f * max price
  – κανόνεσ μεταβολισ του f : factory utilization = 100%

                                                           41
Προςζγγιςθ με NEAR

• Μοντελοποίθςθ ευριςτικοφ ελζγχου ωσ MDP
  – Ιδζα: Κακθμερινά κζλω να κερδίηω παραγγελίεσ
    φψουσ 2000 κφκλων εργοςταςίου και να ζχω
    2000 κφκλουσ ςτθν ουρά
  – States: {WonCycles/Cap., QueuedCycles/Cap.}
  – Actions: f={0.9, 0.91, 0.92, … , 1.14, 1.15}, |f| = 16
  – Scalar Reward:
            r = -[|(WonCycles – Cap)/Cap| + |(QueuedCycles – Cap)/Cap|)]




                                                                           42
Αποτελζςματα
       Adjusted Total Revenue ($M)            Μζςοσ όροσ κφκλων εργοςταςίου




Εκπαίδευςθ: TAC SCM 2011 semifinals                  Στατιςτικά ςθμαντικι διαφορά
Τεςτ: TAC SCM 2011 finals                                 ςυνολικά και ανά δφο
Μετρικι: Λαμβάνει υπόψιν τθν υπζρβαςθ των κφκλων          (Friedman - Wilcoxon)
του εργοςταςίου
                                                                                    43
Ενότθτα 8

Διαδικτυακζσ Διαφθμίςεισ
Περιγραφι Προβλιματοσ




                        45
Ο πράκτορασ Mertacor
                                     Βαςικι ςτρατθγικι: value-per-click
      q              q
bid   d 1
            a v      d 1     ^

                ˆ
                v
                     q           q
                           Pr { conversion       | click } E [ revenue
                                                                         q
                                                                             | conversion ]
                            ^                                        ^

                                                                                                       | focused }( Iˆd 1 )
                                 q                                               q     q
                           Pr { conversion     | click }   focusedPer centage        Pr { conversion

                     Particle Filtering                                        Game Theoretical
                                                                                 Estimation
                           Mertacor
                                        User State                                                     Heuristic Rule
                                        Estimation               α            Ad Selection



                                     VPC Estimation
                                                                                 Ads
      Moving Average
                                                                                 Bids
                                                                                Budget
                                       Id Estimation
 Reports

                                      CPC Estimation                            Budget
        Regression
                                                              Monte Carlo
                                                              Simulation                                            46
Αρχικι Εκτίμθςθ

• Simulation based game theoretical analysis
  • Iterative best response equilibrium search
                    α=0.33
• Πολφ καλι τιμι (1θ κζςθ 2012), αλλά μιπωσ
  μποροφμε καλφτερα:
                                                 π.χ. α ~ 0.25,
  – Στακερι (Fixed)                              Μεγάλα κζρδθ
  – Γραμμικι (Linear)
  – Μυωπικι (Myopic)

                                                          47
Βελτιωμζνθ προςζγγιςθ με NEAR

• Αssociative n-armed bandit problem with
  memory
  – States: {VPC}
  – Actions: α={0.2, 0.21, 0.22, … , 0.39, 0.40}, |α| = 21
  – Scalar Reward: r = revenue – CPC x #clicks
• 50 οργανιςμοί, 50 γενιζσ
• Βάρθ εξόδου με μάκθςθ από τα ιςτορικά
  δεδομζνα:
  – ~100Κ tuples
  – VPC, α, r


                                                             48
Αποτελζςματα
     Αποτελζςματα διαγωνιςμοφ                                        Στοχευμζνο πείραμα
                                                       Δφο τφποι
            TAC AA 2012                               Mertacor και
                                                       διάφοροι
                                                                                          α=0.33
                                                       πράκτορεσ
                                                                                          α=0.3
                        +α=0.33
                        +Budget Estimation
+Particle Filtering



                                                                                Εκπαίδευςθ NEAR


                                                                                           α=0.33


                                             Τελικά

 Προθμιτελικά         Ημιτελικά      Μικρό κζρδοσ αλλά
                                     εξαιρετικά χριςιμο ςε
                                     πολφ ανταγωνιςτικά
                                     περιβάλλοντα                                           49
Ενότθτα 9

Poker
Περιγραφι παιχνιδιοφ

                       1.   Preflop
                       2.   Flop
                       3.   Turn
                       4.   River




                                      51
Περιγραφι προβλιματοσ

• Εφρεςθ τθσ βζλτιςτθσ παιχνιδοκεωρθτικισ
  μικτισ ςτρατθγικισ
  – Πικανότθτεσ επιλογισ μίασ ενζργειασ
    {Fold, Check/Call, Bet/Raise}
  – Στρατθγικι που κανείσ δεν μπορεί να
    εκμεταλλευτεί
• Διάςτθμα αναηιτθςθσ: O(1018)
• Αφαιρετικό μοντζλο
  – Π.χ. PsOpti O(107), pseudo-optimal

                                            52
Μοντελοποίθςθ

• Αντί των O(1018)
  καταςτάςεων                                                      • Υπολογιςμοί
                                                                   • Normalization
  χρθςιμοποιοφμε το                                 Χαρακτθριςτικό
                                              Πικανότθτα να ζχουμε καλφτερο
                                                       Διάνυςμα
  χαρακτθριςτικό διάνυςμα:                    φφλλο ςτο ςυγκεκριμζνο γφρο από
                                              όλα τα τυχαία φφλλα που μπορεί να
  1.       Hand Strength                      ζχει ο αντίπαλοσ
       •        Chen’s pre-flop formula                            • Δθμιουργία χρονικϊν, μθ-
                                                                     γραμμικϊν χαρακτθριςτικϊν
  2.       Effective Hand Strength            HS, PP, NP
                                              PP: Η πικανότθτα το•φφλλο μασ να
                                                                     2 ζξοδοι: Q(check/call), Q(bet/raise)
  3.       Preflop                            βελτιωκεί ΔΗΚ όλωνQ(fold) υπολογίηεται απευκείασ
                                                          ζναντι   • των τυχαίων
  4.       Flop                               ςυνδυαςμϊν των φφλλων του
                                              αντιπάλου
  5.       Turn                               ΝP: Ομοίωσ να χειροτερεφςει
  6.       River                                                    • Softmax: Values to Probabilities
  7.       Pot                                        Mixed         • Roulette wheel
                           κόςτοσ call / (κόςτοσ call + ποςό pot)
  8.       Pot-odds                                 Strategy
  9.       Dealer button


                                                                                                         53
Εκπαίδευςθ ΔΗΚ

• TiltNet-100 and TiltNet-200
  – 100 και 200 νευρϊνεσ ςτο ταμιευτιριο
  – D = 0.15, ρ = 0.85
  – 2,618 (218) και 7,218 (418) βάρθ
• 800Κ hands
  – Showdown
  – Κάκε hand μπορεί να ζχει διαφορετικό αρικμό
    δειγμάτων
• 30 περάςματα
  – Iterative learning gradient descent
                                                  54
Πειράματα και Αξιολόγθςθ

TiltNet-100   Καλφτερα vs. PokiBot and Sparbot




TiltNet-200
                 Τα περιςςότερα features
                 αυξάνουν τθν ικανότθτα
                 του δικτφου απζναντι ςε
                 μθ προβλζψιμουσ αντιπάλουσ
                 (καλφτερθ δυνατότθτα γενίκευςθσ)

                 Τα περιςςότερα features       TiltNet-100
                 αυξάνουν τουσ χρόνουσ            3h 30’
                 εκπαίδευςθσ
                                               TiltNet-200
                                                 12h 50’
                     3.5           1000                      55
Ενότθτα 10

Συμπεράςματα και Μελλοντικζσ
Επεκτάςεισ
Συμπεράςματα
Γενικά:
• NEAR, ιςοδφναμθ αν όχι καλφτερθ μζκοδοσ από αντίςτοιχεσ μεκόδουσ αιχμισ
• Καλι γενίκευςθ και ευρωςτία ςε πλειάδα εφαρμογϊν
• Τεχνικζσ μάκθςθσ για ακρίβεια ςτισ εκτιμιςεισ
• Τεχνικζσ εξζλιξθσ για προβλιματα ενιςχυτικισ μάκθςθσ
• Γζφυρα ανάμεςα ςτα ΔΗΚ και τα πλιρωσ ςυνδεδεμζνα RNN
     • Βελτιςτοποιθμζνα μθ-γραμμικά χρονικά χαρακτθριςτικά που εκπαιδεφονται με γραμμικό
        τρόπο
Μεταφορά Μάκθςθσ:
• Βελτίωςθ τθσ αςυμπτωτικισ ςυμπεριφοράσ και τθσ ταχφτθτασ ςφγκλιςθσ
• Μικρά περικϊρια βελτίωςθσ ςτα υπό μελζτθ προβλιματα
Πρόβλεψθ Χρονοςειρϊν:
• Ακριβείσ προβλζψεισ
• Απαίτθςθ για “loosely-coupled clusters of closely-coupled nodes”
Εφαρμογζσ:                                          Πόκερ:
• Τμιμα τθσ διαδικαςίασ λιψθσ αποφάςεων             • Εφρεςθ βαςικϊν μικτϊν ςτρατθγικϊν
• Βελτίωςθ τθσ απόδοςθσ των πρακτόρων               • Απαίτθςθ για ειδικό software/hardware



                                                                                              57
Μελλοντικζσ Επεκτάςεισ
Βελτιϊςεισ ςτθ μζκοδο NEAR     •     Leaky integrator neurons
• Νζα προβλιματα               •     feedback connectivity
                        • RLS-TD
                               •        • LSPI
                                     intrinsic plasticity
• Επζκταςθ μοντζλου ΔΗΚ• Gaussian
                               •        • iLSTD
                                     multiple read-out functions
• Μζκοδοι μάκθςθσ         mutation      • GQ
                        • PEGASUS       • CMA-ES
• Συνεξζλιξθ
• Μθ-ςτάςιμα περιβάλλοντα

Μεταφορά Μάκθςθσ
• Πιο περίπλοκα προβλιματα
• Inter-domain transfer learning

SCM & ΑΑ Agents
• Βελτιϊςεισ ςτουσ αλγορίκμουσ βελτιςτοποίθςθσ και εκτίμθςθσ
• Ενιςχυτικι μάκθςθ με ςυνεχείσ ενζργειεσ

Πόκερ
• Bias-Variance trade-off
• Map-reduce
• Μοντελοποίθςθ αντιπάλου
• Ring/No-limit games                                              58
Δθμοςιεφςεισ
Περιοδικά με ςφςτθμα κριτϊν
1. Kyriakos C. Chatzidimitriou and Pericles A. Mitkas. Adaptive Reservoir Computing through Learning and Evolution.
   Neurocomputing, Elsevier, Available online. (1.840)
2. Kyriakos C. Chatzidimitriou and Andreas L. Symeonidis. Agents in Dynamic Supply Chain Management Environments: Data
   Mining-Driven Design Choices. Intelligent Systems, 24(3):54–63, 2009. Special issue on Agents and Data Mining. (2.693)
3. Kyriakos C. Chatzidimitriou, Andreas L. Symeonidis, Ioannis Kontogounis, and Pericles A. Mitkas. Agent Mertacor: A robust
   design for dealing with uncertainty and variation in SCM environments. Expert Systems with Applications, 35(3):591–603,
   October 2008. (2.539)
Πρακτικά ςυνεδρίων με ςφςτθμα κριτϊν
1. Kyriakos C. Chatzidimitriou, Andreas L. Symeonidis, and Pericles A. Mitkas. Policy search through adaptive function
   approximation for bidding in TAC SCM. In Trading Agent Design and Analysis (TADA) 2012 Workshop held in conjunction with
   the International Conference on AAMAS 2012, Lecture Notes in Business Information Processing, Springer, 2012.
2. Kyriakos C. Chatzidimitriou, Ioannis Partalas, Pericles A. Mitkas, and Ioannis Vlahavas. Transferring evolved reservoir features
   in reinforcement learning tasks. In European Workshop on Reinforcement Learning, Lecture Notes in Computer Science,
   Volume 7188, pages 213-224, 2011.
3. Kyriakos C. Chatzidimitriou, Antonios C. Chrysopoulos, Andreas L. Symeonidis, and Pericles A. Mitkas. Enhancing agent
   intelligence through evolving reservoir networks for prediction in power stock markets. In Agent and Data Mining Interaction
   2011 Workshop held in conjunction with the conference on AAMAS 2011, 2011.
4. Kyriakos C. Chatzidimitriou, Lampros C. Stavrogiannis, Andreas L. Symeonidis, and Pericles A. Mitkas. An adaptive proportional
   value-per-click agent for bidding in ad auctions. In Trading Agent Design and Analysis (TADA) 2011 Workshop held in
   conjunction with IJCAI 2011, 2011.
5. Michalis Tsapanos, Kyriakos C. Chatzidimitriou, and Pericles A. Mitkas. A zeroth-level classifier system for real time strategy
   games. In 2011 IEEE/WIC/ACM International Conference on Intelligent Agent Technology, volume 2, pages 244–247, 2011.
6. Kyriakos C. Chatzidimitriou and Pericles A. Mitkas. A neat way for evolving echo state networks. In European Conference on
   Artificial Intelligence, IOS Press, August 2010.
7. Kyriakos C. Chatzidimitriou, Andreas L. Symeonidis, and Pericles A. Mitkas. Data mining-driven analysis and decomposition in
   agent supply chain management networks. In IEEE/WIC/ACM Workshop on Agents and Data Mining Interaction, Sydney,
   Australia, 9-12 December 2008.

                                                                                                                                59
Δθμοςιεφςεισ/Διακρίςεισ
Ανακοινϊςεισ ςε Συνζδρια με Κριτζσ χωρίσ Πρακτικά
1. Kyriakos C. Chatzidimitriou, Fotis Psomopoulos, and Pericles A. Mitkas. Grid-enabled parameter initialization for high
     performance machine learning tasks. In 5th EGEE User Forum, April 2010.
2. Christos Dimou, Kyriakos C. Chatzidimitriou, Andreas L. Symeonidis, and Pericles A. Mitkas. Creating and reusing metric
     graphs for evaluating agent performance in the supply chain management domain. In First Workshop on Knowledge Reuse
     (KREUSE’2008) hosted at the 10th International Conference on Software Reuse, Beijing (China), May 25-29 2008.
Διακρίςεισ
•    1θ κζςθ ςτον παγκόςμιο διαγωνιςμό ςυναλλαγϊν και εμπορίου με πράκτορεσ λογιςμικοφ – διαδικτυακϊν διαφθμίςεων
     (Trading Agent Competition – TAC 2012, Ad Auctions game)
•    Συμμετοχι ςτα τελικά του φοιτθτικοφ διαγωνιςμοφ business plan, e-nnovation 2011, (πρόκριςθ ςτισ 16 κορυφαίεσ από 102
     ομάδεσ)
•    3θ κζςθ ςτον παγκόςμιο διαγωνιςμό ελεγκτϊν Pac-Man, 2011
•    3θ κζςθ ςτον παγκόςμιο διαγωνιςμό ςυναλλαγϊν και εμπορίου με πράκτορεσ λογιςμικοφ – διαδικτυακϊν διαφθμίςεων
     (Trading Agent Competition – TAC 2010, Ad Auctions game)
•    Υποτροφία Αριςτείασ για υποψιφιουσ διδάκτορεσ, 2009, Επιτροπι Ερευνϊν, Α.Π.Θ.




                                                                                                                        60
Ευχαριςτϊ

More Related Content

Similar to Μηχανισμοί Ενισχυτικής Μάθησης και Εξελικτικής Υπολογιστικής για Αυτόνομους Πράκτορες

Lelis Αthanasios
Lelis ΑthanasiosLelis Αthanasios
Lelis ΑthanasiosISSEL
 
Anagnostopoulos, Vavatsikos, Kraias, Spyropoulos
Anagnostopoulos, Vavatsikos, Kraias, SpyropoulosAnagnostopoulos, Vavatsikos, Kraias, Spyropoulos
Anagnostopoulos, Vavatsikos, Kraias, Spyropoulosnspiropo
 
Συνεχής έμμεση αυθεντικοποίηση χρηστών κινητού τηλεφώνου με συνδυασμό των δεδ...
Συνεχής έμμεση αυθεντικοποίηση χρηστών κινητού τηλεφώνου με συνδυασμό των δεδ...Συνεχής έμμεση αυθεντικοποίηση χρηστών κινητού τηλεφώνου με συνδυασμό των δεδ...
Συνεχής έμμεση αυθεντικοποίηση χρηστών κινητού τηλεφώνου με συνδυασμό των δεδ...ISSEL
 
Οι σαρωτές laser στην παραγωγική διαδικασία του τοπογράφου μηχανικού
Οι σαρωτές laser στην παραγωγική διαδικασία του τοπογράφου μηχανικούΟι σαρωτές laser στην παραγωγική διαδικασία του τοπογράφου μηχανικού
Οι σαρωτές laser στην παραγωγική διαδικασία του τοπογράφου μηχανικούMichael Xinogalos
 

Similar to Μηχανισμοί Ενισχυτικής Μάθησης και Εξελικτικής Υπολογιστικής για Αυτόνομους Πράκτορες (7)

Lelis Αthanasios
Lelis ΑthanasiosLelis Αthanasios
Lelis Αthanasios
 
Software quality
Software qualitySoftware quality
Software quality
 
Sonar platform
Sonar platformSonar platform
Sonar platform
 
Anagnostopoulos, Vavatsikos, Kraias, Spyropoulos
Anagnostopoulos, Vavatsikos, Kraias, SpyropoulosAnagnostopoulos, Vavatsikos, Kraias, Spyropoulos
Anagnostopoulos, Vavatsikos, Kraias, Spyropoulos
 
Jeliot
JeliotJeliot
Jeliot
 
Συνεχής έμμεση αυθεντικοποίηση χρηστών κινητού τηλεφώνου με συνδυασμό των δεδ...
Συνεχής έμμεση αυθεντικοποίηση χρηστών κινητού τηλεφώνου με συνδυασμό των δεδ...Συνεχής έμμεση αυθεντικοποίηση χρηστών κινητού τηλεφώνου με συνδυασμό των δεδ...
Συνεχής έμμεση αυθεντικοποίηση χρηστών κινητού τηλεφώνου με συνδυασμό των δεδ...
 
Οι σαρωτές laser στην παραγωγική διαδικασία του τοπογράφου μηχανικού
Οι σαρωτές laser στην παραγωγική διαδικασία του τοπογράφου μηχανικούΟι σαρωτές laser στην παραγωγική διαδικασία του τοπογράφου μηχανικού
Οι σαρωτές laser στην παραγωγική διαδικασία του τοπογράφου μηχανικού
 

More from Kyriakos Chatzidimitriou

Simple rules for building robust machine learning models
Simple rules for building robust machine learning modelsSimple rules for building robust machine learning models
Simple rules for building robust machine learning modelsKyriakos Chatzidimitriou
 
Συμβουλές και στρατηγικές που αποκόμισα από το πρώτο μου εγχείρημα
Συμβουλές και στρατηγικές που αποκόμισα από το πρώτο μου εγχείρημαΣυμβουλές και στρατηγικές που αποκόμισα από το πρώτο μου εγχείρημα
Συμβουλές και στρατηγικές που αποκόμισα από το πρώτο μου εγχείρημαKyriakos Chatzidimitriou
 
Advices and strategies I learned from my first business attempt
Advices and strategies I learned from my first business attemptAdvices and strategies I learned from my first business attempt
Advices and strategies I learned from my first business attemptKyriakos Chatzidimitriou
 
An Adaptive Proportional Value-per-Click Agent for Bidding in Ad Auctions
An Adaptive Proportional Value-per-Click Agent for Bidding in Ad AuctionsAn Adaptive Proportional Value-per-Click Agent for Bidding in Ad Auctions
An Adaptive Proportional Value-per-Click Agent for Bidding in Ad AuctionsKyriakos Chatzidimitriou
 
Μια βραδιά στο μέλλον - Οι πράκτορες Mertacor
Μια βραδιά στο μέλλον - Οι πράκτορες MertacorΜια βραδιά στο μέλλον - Οι πράκτορες Mertacor
Μια βραδιά στο μέλλον - Οι πράκτορες MertacorKyriakos Chatzidimitriou
 
A NEAT Way for Evolving Echo State Networks
A NEAT Way for Evolving Echo State NetworksA NEAT Way for Evolving Echo State Networks
A NEAT Way for Evolving Echo State NetworksKyriakos Chatzidimitriou
 

More from Kyriakos Chatzidimitriou (7)

Simple rules for building robust machine learning models
Simple rules for building robust machine learning modelsSimple rules for building robust machine learning models
Simple rules for building robust machine learning models
 
Συμβουλές και στρατηγικές που αποκόμισα από το πρώτο μου εγχείρημα
Συμβουλές και στρατηγικές που αποκόμισα από το πρώτο μου εγχείρημαΣυμβουλές και στρατηγικές που αποκόμισα από το πρώτο μου εγχείρημα
Συμβουλές και στρατηγικές που αποκόμισα από το πρώτο μου εγχείρημα
 
Advices and strategies I learned from my first business attempt
Advices and strategies I learned from my first business attemptAdvices and strategies I learned from my first business attempt
Advices and strategies I learned from my first business attempt
 
Ι/Ο Data Εngineering
Ι/Ο Data ΕngineeringΙ/Ο Data Εngineering
Ι/Ο Data Εngineering
 
An Adaptive Proportional Value-per-Click Agent for Bidding in Ad Auctions
An Adaptive Proportional Value-per-Click Agent for Bidding in Ad AuctionsAn Adaptive Proportional Value-per-Click Agent for Bidding in Ad Auctions
An Adaptive Proportional Value-per-Click Agent for Bidding in Ad Auctions
 
Μια βραδιά στο μέλλον - Οι πράκτορες Mertacor
Μια βραδιά στο μέλλον - Οι πράκτορες MertacorΜια βραδιά στο μέλλον - Οι πράκτορες Mertacor
Μια βραδιά στο μέλλον - Οι πράκτορες Mertacor
 
A NEAT Way for Evolving Echo State Networks
A NEAT Way for Evolving Echo State NetworksA NEAT Way for Evolving Echo State Networks
A NEAT Way for Evolving Echo State Networks
 

Μηχανισμοί Ενισχυτικής Μάθησης και Εξελικτικής Υπολογιστικής για Αυτόνομους Πράκτορες

  • 1. Μθχανιςμοί ενιςχυτικισ μάκθςθσ και εξελικτικισ υπολογιςτικισ για αυτόνομουσ πράκτορεσ Κυριάκοσ Χ. Χατηθδθμθτρίου Επιβλζπων: Κακθγθτισ Περικλισ Α. Μιτκασ Τμιμα Ηλεκτρολόγων Μθχανικϊν και Μθχανικϊν Υπολογιςτϊν ΑΠΘ
  • 2. Περιεχόμενα Ειςαγωγι Θεωρθτικό Υπόβακρο • ΔΗΚ • NEAT Μεκοδολογία NEAR Αξιολόγθςθ Επιδόςεων Μεταφορά Μάκθςθσ Πρόβλεψθ Χρονοςειρϊν Εφαρμογι 1: Εφοδιαςτικι Αλυςίδα Εφαρμογι 2: Διαδικτυακζσ Διαφθμίςεισ Εφαρμογι 3: Πόκερ Συμπεράςματα και Μελλοντικζσ Επεκτάςεισ 2
  • 4. Αυτόνομοι Πράκτορεσ Agenda Μζλλον Αυτόνομοι Πράκτορεσ 4
  • 5. Περιγραφι του Προβλιματοσ Σθμαντικότεροσ ςτόχοσ ΤΝ ⇒ δθμιουργία αυτόνομων πρακτόρων Κατάλλθλθ προςζγγιςθ ⇒ ενιςχυτικι μάκθςθ Πραγματικόσ κόςμοσ ⇒ γενίκευςθ Παραμετρικζσ ςυναρτιςεισ προςζγγιςθσ ⇒ ανάγκθ ειδικϊν Προςαρμοηόμενεσ ςυναρτιςεισ προςζγγιςθσ 5
  • 6. Στόχοσ τθσ Διατριβισ Σχεδίαςθ μιασ ικανισ μεκόδου προςαρμογισ, μιασ παραμετρικισ ςυνάρτθςθσ προςζγγιςθσ • Υψθλζσ επιδόςεισ ςε ευρεία γκάμα προβλθμάτων Αξιολόγθςθ τθσ μεκόδου Συςτατικά • Παραμετρικι ςυνάρτθςθ προςζγγιςθσ • Μζκοδοσ προςαρμογισ 6
  • 7. Μεκοδολογία Προςεγγιςτικι Συνάρτθςθ Δίκτυα Ηχωικϊν Καταςτάςεων (Echo State Networks) (Function Approximator) • Δίκτυα με αναδράςεισ (RNN) Υβριδικι μζκοδοσ • Χρονικά, μθ-γραμμικά (Non-linear, Non-Markovian) (Hybrid method) • Γραμμικι μάκθςθ • Θεωρθτικά και πειραματικά αξιολογθμζνα • Τυχαίοσ τρόποσ δθμιουργίασ NeuroEvolution of Augmented Topologies (NEAT) Ενιςχυτικι • State-of-the-art neuroevolution μζκοδοσ Μάκθςθ • Ζλυςε προβλιματα: • Πρόωρθσ ςφγκλιςθσ • Ανταγωνιςτικϊν ςυμβάςεων • Βιολογικά βαςιςμζνθ και πειραματικά αξιολογθμζνθ μεκοδολογία • Ad-hoc δίκτυα, κλαςςικζσ μζκοδοι μάκθςθσ, όχι γραμμικά χαρακτθριςτικά Νευρωνικά Εξελικτικι Συνδυαςμόσ Μάκθςθσ και Εξζλιξθσ Δίκτυα Υπολογιςτικι • Βελτίωςθ μζτα-παραμζτρων • Ταυτόχρονθ ςυνολικι και τοπικι βελτιςτοποίθςθ Νευροεξζλιξθ (Neuroevolution) NEAR 7
  • 8. Χαρακτθριςτικά Μεκόδου Μοντελοποίθςθ και μθ γραμμικϊν περιβαλλόντων Υποςτιριξθ και μθ Μαρκοβιανϊν ςθμάτων κατάςταςθσ Ατζρμονθ προςαρμογι (Open-ended) Αυτόνομθ προςαρμογι Δυναμικι προςαρμογι Θεωρθτικά/Πειραματικά τεκμθριωμζνα ςυςτατικά 8
  • 10. Παράδειγμα Δικτφου Ηχωικϊν Καταςτάςεων K1 K2 N1 N2 N3 -0.25 0.44 0.15 -0.87 0.04 L1 Wout = 0.33 -0.71 0.14 -0.56 0.11 L2 Κ1 K1 K2 N1 -0.25 0.45 N1 L1 Win = 0.15 0.05 N2 N2 -0.68 -0.22 N3 L2 Κ2 N3 N1 N2 N3 0.83 0 -0.45 N1 W= 0 0 0 N2 0.16 0 0 N3 10
  • 11. Δίκτυα Ηχωικϊν Καταςτάςεων Πρακτικι δθμιουργίασ ΔΗΚ • W αραιόσ • D→0 • N >> 0 • μ(W) = 0 • ρ<1 • αδφναμοσ λευκόσ κόρυβοσ v Μάκθςθ  Προςαρμογι Wout • Linear Least Squares • SARSA μζςω gradient descent • Policy search μζςω CMA-ES 11
  • 12. ΝΕΑΤ • Μινιμαλιςτικι αρχικοποίθςθ και περιπλοκι (Start minimally and complexify) • Μετάλλαξθ βαρϊν και τοπολογίασ (Weight & structural mutation) • Ομαδοποίθςθ ςε είδθ (Speciation) για τθν προςταςία καινοτομιϊν (clustering to protect innovation) – Καταπολζμθςθ πρόωρθσ ςφγκλιςθσ (battle premature convergence) 1 2 1 2 3 3 • Διαςταφρωςθ (Crossover) δικτφων με ιςτορικι δεικτοδότθςθ (historical markings) ςτισ ςυνδζςεισ 1 2 3 12
  • 14. Αναπαράςταςθ γονιδιϊματοσ Γονότυποσ (Direct encoding) Genome Win W Wout ρ D Scale W ~ ρ Φαινότυποσ 14
  • 15. 1. Αρχικοποίθςθ Πλθκυςμοφ • Ν = 1 (XOR) • D ∈ (0,1] • ρ ∈(0,1) • Αρχικοποίθςθ και με περιςςότερουσ νευρϊνεσ ταμιευτθρίου 15
  • 16. 2. Αξιολόγθςθ Γονιδιϊματοσ • Υπολογιςμόσ fitness για ζναν αρικμό επειςοδίων • Δυνατότθτα μάκθςθσ κατά τθ διάρκεια των επειςοδίων – π.χ. SARSA TD-learning με GD 16
  • 17. 3. Ομαδοποίθςθ ςε είδθ και επιλογι Ομαδοποίθςθ με βάςθ μακροςκοπικά χαρακτθριςτικά του δικτφου: Για κάκε γονιδίωμα - adjusted fitness: Για κάκε είδοσ - αρικμόσ απογόνων: Intra-species αναπαραγωγι και με μικρι πικανότθτα inter-species 17
  • 18. 4. Μετάλλαξθ • Μετάλλαξθ βαρϊν: perturbations και restarts • Μετάλλαξθ D και ρ • Προςκικθ κόμβου -0.84 0 0 -0.84 0 0 0 1 0.55 0 0.25 0.55 0 0.25 0 2 -0.68 0.15 0 -0.68 0.15 0 0 0 0 0 0 3 • Προςκικθ ςφνδεςθσ 4 -0.84 0 0 0 -0.84 0 0 0 0.55 0 0.25 0 0.55 0 0.25 0 -0.68 0.15 0 0 -0.68 0.15 0 -0.06 0 0 0 0 0 0 0 0 18
  • 19. 5. Διαςταφρωςθ 0 0 . 83 0 0 . 94 0 . 34 0 . 42 0 . 67 0 0 . 34 0 0 . 84 0 0 0 0 . 63 0 . 03 0 0 0 . 55 0 0 . 25 0 . 38 0 0 0 0 0 . 68 0 . 15 0 0 0 0 . 68 0 0 0 0.83 0 0.94 -0.34 -0.84 0 0 Matching 0.42 -0.67 0 0.34 0 0.55 0 0.25 Disjoint 0 -0.63 0.03 0 0 -0.68 0.15 0 Excess Prune ~ D -0.38 0 0 0 0 0 0 -0.68 0 0 Matching: Μζςοσ όροσ Ευκυγράμμιςθ ςτο επίπεδο των Disjoint: Κρατοφνται κόμβων με βάςθ τθν ιςτορικι Excess: Κρατοφνται αν επιλεγεί ο largest δεικτοδότθςθ ζναντι του fittest parent 19
  • 20. Τφποι εξζλιξθσ • Λαμαρκιανι (Lamarckian) – Ο Wout μεταφζρεται από γενιά ςε γενιά • Δαρβίνια (Darwinian) – Ο Wout δθμιουργείται εκ νζου ςε κάκε γενιά – Baldwin effect: Η μάκθςθ βοθκάει να επιλζξει θ εξζλιξθ το γονιδίωμα που μακαίνει καλφτερα, ζτςι επικυμθτά χαρ/κά του δικτφου μεταφζρονται χωρίσ να μεταφζρεται και θ γνϊςθ που απζκτθςε 20
  • 22. Πλατφόρμα Αξιολόγθςθσ • 10 προβλιματα ενιςχυτικισ μάκθςθσ – 50 runs ανά πρόβλθμα • Cross-validation (supervised learning) – training + validation + test (unbiased) Αξιολόγθςθ • Μάκθςθ ενεργι Πλθκυςμοφ • 100 επειςόδια/γονιδίωμα Γενιάσ • Μζςοσ όροσ ςυνολικισ ανταμοιβισ (fitness) (Training) • Τυχαία επανεκκίνθςθ επειςοδίων Champion Αξιολόγθςθ • Μάκθςθ ανενεργι Πρωτακλθτϊν • 1000 επειςόδια/πρωτακλθτι (Validation) • Τυχαία επανεκκίνθςθ επειςοδίων Champion Performance Champion Αξιολόγθςθ of Champions • Μάκθςθ ανενεργι Πρωτακλθτι • 1000 επειςόδια Επιλεχκζν Πρωτακλθτϊν • Τυχαία επανεκκίνθςθ επειςοδίων δίκτυο (Testing) Generalization Performance 22
  • 23. Προβλιματα και Μζκοδοι Π1. 2D Mountain Car – Markov NEAT Π2. 2D Mountain Car – Non-Markov NEAR+TD+L Π3. 3D Mountain Car – Markov NEAR+TD+D Π4. 3D Mountain Car – Non-Markov NEAR+PS Π5. Server Job Scheduling Π6. Single Pole Balancing – Markov ESN Π7. Single Pole Balancing – Non-Markov Π8. Double Pole Balancing – Markov Π9. Double Pole Balancing – Non-Markov Π10. Double Pole Balancing – Non Markov NEAR+PS vs. 12 different with dumping fitness function algorithms [GMZ2006] 23
  • 24. Αποτελζςματα Π1-Π5 Π6-Π10 Μζκοδοσ GP μ(ranks) NEAT 3.8 NEAR+TD+L 1.8 NEAR+TD+D 3.2 NEAR+PS 1.6 ESN 4.8 • 1 επειςόδιο: solution found or not! • Όχι τυχαίεσ επανεκκινιςεισ • NEAR+PS • Μετρικι: # αξιολογθμζνων δικτφων Συμπεράςματα: • Στατιςτικι ςθμαντικότθτα ςτθν υπεροχι του NEAR ζναντι του NEAT και των ESN • Lamarckian evolution > Darwinian evolution • Περιςςότεροι νευρϊνεσ ςτα NM • μ(D) ~ 0.5 • Η βελτιςτοποίθςθ καταργεί τθν ζννοια του αραιοφ ΔΗΚ (Fully connected RNN) 24
  • 26. Πρόβλθμα • Μεταφορά τθσ μάκθςθσ που αποκτικθκε ςε μία πηγαία εργαςία για τθ διευκόλυνςθ τθσ μάκθςθσ ςε μια άλλθ, διαφορετικι, άλλα ςχετικι, εργαςία ςτόχο • Σκοπόσ τθσ επζκταςθσ: – Εκμάκθςθ λφςεων του προβλιματοσ γρθγορότερα – Καλφτερθ αςυμπτωτικι ςυμπεριφορά 26
  • 27. Προβλιματα Αξιολόγθςθσ Mountain Car Server Job Scheduling source target 2D – Markov ⇒ 3D – Markov 2 τφπουσ εργαςιϊν ⇒ 4 τφπουσ εργαςιϊν 2D – Non-Markov ⇒ 3D – Non-Markov 27
  • 29. Προςεγγίςεισ Agnostic + Reservoir Transfer Inter-task mappings + Reservoir Transfer [TWS07] Inter-task mappings + Reservoir Doubling 29
  • 30. Αποτελζςματα - Αςυμπτωτικι Συμπεριφορά Εξζλιξθ εξ’ αρχισ Προςεγγίςεισ μεταφοράσ μάκθςθσ Στατιςτικά ςθμαντικι διαφορά 30
  • 31. Αποτελζςματα - Ταχφτθτα ςφγκλιςθσ 3DMC-M SJS 3DMC-NM Πιο ξεκάκαρθ διαφορά 31
  • 33. Χρονοςειρζσ Mackey-Glass Multiple Superimposed Lorentz Oscillator Ηλεκτρικό φορτίο (ΔΕΣΜΗΕ) 33
  • 34. Πλαίςιο αξιολόγθςθσ Χρονοςειρά W Training Val. Target Επιλογι καλφτερου δικτφου χωρίσ το validation set W W … W Πρόβλεψθ … Σφάλμα γενίκευςθ ςτο validation set W Πρόβλεψθ 34
  • 35. Αποτελζςματα Mackey-Glass Ηλεκτρικό φορτίο Lorentz MSO 35
  • 38. Στόχοσ Ζνασ πράκτορασ ςτο διαγωνιςμό TAC SCM κα πρζπει: «Να πουλάει ςε όςο το δυνατόν υψθλότερθ τιμι και να αγοράηει ςε όςο το δυνατόν χαμθλότερθ, διατθρϊντασ ςτο μζγιςτο τθ ρυκμαπόδοςθ (throughput) τόςο ςτο εργοςτάςιο όςο και ςτθν αποκικθ και αποφεφγοντασ τισ αςτοχίεσ ςτισ παραδόςεισ των υπολογιςτϊν» [CSM2008] 38
  • 39. Μθχανιςμόσ Πλειοδοςίασ Τιμι προςφοράσ • Για κάκε RFQ δϊςε μία τιμι προςφοράσ (bid) Πικανότθτα αποδοχισ προςφορά • Για κάκε RFQ: Pr(accepted|bid) Εκτιμϊμενο Utility • U = Pr(accepted|bid) * bid / cycles Ταξινόμθςθ • Sort ~ Utility Επιλογι προςφορϊν • Επιλογι RFQs ζωσ τθ ςυμπλιρωςθ 2000 κφκλων • C += Pr(accepted|bid) * CRFQ 39
  • 40. Pr(offer=accepted|bid) • Logistic Regression 1 f (z) = -z , z = w1 x1 + w2 x2 +... + wn xn 1+ e Feature w Current Date -0.19 Base Price -0.67 Due Date -1.26 Quantity 0.80 Max Price 17.96 Min Price 1.61 Total Quantity 0.52 Reserve Price 2.39 Offer Price -22.94 40
  • 41. Τιμι προςφοράσ • Πρόβλεψθ από ιςτορικά δεδομζνα τιμισ αποδοχισ – Regression Trees • M5’ • CART • Βελτιςτοποίθςθ με ςμινοσ ςωματιδίων (Particle Swarm Optimization) – Κάκε ςωματίδιο αποτελεί μία λφςθ (p1,p2, … ,pn) – Προςομοίωςθ, 100 ςωμ. 100 επαν., 1’’ • Ευριςτικόσ ζλεγχοσ με κανόνεσ – bid = f * max price – κανόνεσ μεταβολισ του f : factory utilization = 100% 41
  • 42. Προςζγγιςθ με NEAR • Μοντελοποίθςθ ευριςτικοφ ελζγχου ωσ MDP – Ιδζα: Κακθμερινά κζλω να κερδίηω παραγγελίεσ φψουσ 2000 κφκλων εργοςταςίου και να ζχω 2000 κφκλουσ ςτθν ουρά – States: {WonCycles/Cap., QueuedCycles/Cap.} – Actions: f={0.9, 0.91, 0.92, … , 1.14, 1.15}, |f| = 16 – Scalar Reward: r = -[|(WonCycles – Cap)/Cap| + |(QueuedCycles – Cap)/Cap|)] 42
  • 43. Αποτελζςματα Adjusted Total Revenue ($M) Μζςοσ όροσ κφκλων εργοςταςίου Εκπαίδευςθ: TAC SCM 2011 semifinals Στατιςτικά ςθμαντικι διαφορά Τεςτ: TAC SCM 2011 finals ςυνολικά και ανά δφο Μετρικι: Λαμβάνει υπόψιν τθν υπζρβαςθ των κφκλων (Friedman - Wilcoxon) του εργοςταςίου 43
  • 46. Ο πράκτορασ Mertacor Βαςικι ςτρατθγικι: value-per-click q q bid d 1 a v d 1 ^ ˆ v q q Pr { conversion | click } E [ revenue q | conversion ] ^ ^ | focused }( Iˆd 1 ) q q q Pr { conversion | click } focusedPer centage Pr { conversion Particle Filtering Game Theoretical Estimation Mertacor User State Heuristic Rule Estimation α Ad Selection VPC Estimation Ads Moving Average Bids Budget Id Estimation Reports CPC Estimation Budget Regression Monte Carlo Simulation 46
  • 47. Αρχικι Εκτίμθςθ • Simulation based game theoretical analysis • Iterative best response equilibrium search α=0.33 • Πολφ καλι τιμι (1θ κζςθ 2012), αλλά μιπωσ μποροφμε καλφτερα: π.χ. α ~ 0.25, – Στακερι (Fixed) Μεγάλα κζρδθ – Γραμμικι (Linear) – Μυωπικι (Myopic) 47
  • 48. Βελτιωμζνθ προςζγγιςθ με NEAR • Αssociative n-armed bandit problem with memory – States: {VPC} – Actions: α={0.2, 0.21, 0.22, … , 0.39, 0.40}, |α| = 21 – Scalar Reward: r = revenue – CPC x #clicks • 50 οργανιςμοί, 50 γενιζσ • Βάρθ εξόδου με μάκθςθ από τα ιςτορικά δεδομζνα: – ~100Κ tuples – VPC, α, r 48
  • 49. Αποτελζςματα Αποτελζςματα διαγωνιςμοφ Στοχευμζνο πείραμα Δφο τφποι TAC AA 2012 Mertacor και διάφοροι α=0.33 πράκτορεσ α=0.3 +α=0.33 +Budget Estimation +Particle Filtering Εκπαίδευςθ NEAR α=0.33 Τελικά Προθμιτελικά Ημιτελικά Μικρό κζρδοσ αλλά εξαιρετικά χριςιμο ςε πολφ ανταγωνιςτικά περιβάλλοντα 49
  • 51. Περιγραφι παιχνιδιοφ 1. Preflop 2. Flop 3. Turn 4. River 51
  • 52. Περιγραφι προβλιματοσ • Εφρεςθ τθσ βζλτιςτθσ παιχνιδοκεωρθτικισ μικτισ ςτρατθγικισ – Πικανότθτεσ επιλογισ μίασ ενζργειασ {Fold, Check/Call, Bet/Raise} – Στρατθγικι που κανείσ δεν μπορεί να εκμεταλλευτεί • Διάςτθμα αναηιτθςθσ: O(1018) • Αφαιρετικό μοντζλο – Π.χ. PsOpti O(107), pseudo-optimal 52
  • 53. Μοντελοποίθςθ • Αντί των O(1018) καταςτάςεων • Υπολογιςμοί • Normalization χρθςιμοποιοφμε το Χαρακτθριςτικό Πικανότθτα να ζχουμε καλφτερο Διάνυςμα χαρακτθριςτικό διάνυςμα: φφλλο ςτο ςυγκεκριμζνο γφρο από όλα τα τυχαία φφλλα που μπορεί να 1. Hand Strength ζχει ο αντίπαλοσ • Chen’s pre-flop formula • Δθμιουργία χρονικϊν, μθ- γραμμικϊν χαρακτθριςτικϊν 2. Effective Hand Strength HS, PP, NP PP: Η πικανότθτα το•φφλλο μασ να 2 ζξοδοι: Q(check/call), Q(bet/raise) 3. Preflop βελτιωκεί ΔΗΚ όλωνQ(fold) υπολογίηεται απευκείασ ζναντι • των τυχαίων 4. Flop ςυνδυαςμϊν των φφλλων του αντιπάλου 5. Turn ΝP: Ομοίωσ να χειροτερεφςει 6. River • Softmax: Values to Probabilities 7. Pot Mixed • Roulette wheel κόςτοσ call / (κόςτοσ call + ποςό pot) 8. Pot-odds Strategy 9. Dealer button 53
  • 54. Εκπαίδευςθ ΔΗΚ • TiltNet-100 and TiltNet-200 – 100 και 200 νευρϊνεσ ςτο ταμιευτιριο – D = 0.15, ρ = 0.85 – 2,618 (218) και 7,218 (418) βάρθ • 800Κ hands – Showdown – Κάκε hand μπορεί να ζχει διαφορετικό αρικμό δειγμάτων • 30 περάςματα – Iterative learning gradient descent 54
  • 55. Πειράματα και Αξιολόγθςθ TiltNet-100 Καλφτερα vs. PokiBot and Sparbot TiltNet-200 Τα περιςςότερα features αυξάνουν τθν ικανότθτα του δικτφου απζναντι ςε μθ προβλζψιμουσ αντιπάλουσ (καλφτερθ δυνατότθτα γενίκευςθσ) Τα περιςςότερα features TiltNet-100 αυξάνουν τουσ χρόνουσ 3h 30’ εκπαίδευςθσ TiltNet-200 12h 50’ 3.5 1000 55
  • 56. Ενότθτα 10 Συμπεράςματα και Μελλοντικζσ Επεκτάςεισ
  • 57. Συμπεράςματα Γενικά: • NEAR, ιςοδφναμθ αν όχι καλφτερθ μζκοδοσ από αντίςτοιχεσ μεκόδουσ αιχμισ • Καλι γενίκευςθ και ευρωςτία ςε πλειάδα εφαρμογϊν • Τεχνικζσ μάκθςθσ για ακρίβεια ςτισ εκτιμιςεισ • Τεχνικζσ εξζλιξθσ για προβλιματα ενιςχυτικισ μάκθςθσ • Γζφυρα ανάμεςα ςτα ΔΗΚ και τα πλιρωσ ςυνδεδεμζνα RNN • Βελτιςτοποιθμζνα μθ-γραμμικά χρονικά χαρακτθριςτικά που εκπαιδεφονται με γραμμικό τρόπο Μεταφορά Μάκθςθσ: • Βελτίωςθ τθσ αςυμπτωτικισ ςυμπεριφοράσ και τθσ ταχφτθτασ ςφγκλιςθσ • Μικρά περικϊρια βελτίωςθσ ςτα υπό μελζτθ προβλιματα Πρόβλεψθ Χρονοςειρϊν: • Ακριβείσ προβλζψεισ • Απαίτθςθ για “loosely-coupled clusters of closely-coupled nodes” Εφαρμογζσ: Πόκερ: • Τμιμα τθσ διαδικαςίασ λιψθσ αποφάςεων • Εφρεςθ βαςικϊν μικτϊν ςτρατθγικϊν • Βελτίωςθ τθσ απόδοςθσ των πρακτόρων • Απαίτθςθ για ειδικό software/hardware 57
  • 58. Μελλοντικζσ Επεκτάςεισ Βελτιϊςεισ ςτθ μζκοδο NEAR • Leaky integrator neurons • Νζα προβλιματα • feedback connectivity • RLS-TD • • LSPI intrinsic plasticity • Επζκταςθ μοντζλου ΔΗΚ• Gaussian • • iLSTD multiple read-out functions • Μζκοδοι μάκθςθσ mutation • GQ • PEGASUS • CMA-ES • Συνεξζλιξθ • Μθ-ςτάςιμα περιβάλλοντα Μεταφορά Μάκθςθσ • Πιο περίπλοκα προβλιματα • Inter-domain transfer learning SCM & ΑΑ Agents • Βελτιϊςεισ ςτουσ αλγορίκμουσ βελτιςτοποίθςθσ και εκτίμθςθσ • Ενιςχυτικι μάκθςθ με ςυνεχείσ ενζργειεσ Πόκερ • Bias-Variance trade-off • Map-reduce • Μοντελοποίθςθ αντιπάλου • Ring/No-limit games 58
  • 59. Δθμοςιεφςεισ Περιοδικά με ςφςτθμα κριτϊν 1. Kyriakos C. Chatzidimitriou and Pericles A. Mitkas. Adaptive Reservoir Computing through Learning and Evolution. Neurocomputing, Elsevier, Available online. (1.840) 2. Kyriakos C. Chatzidimitriou and Andreas L. Symeonidis. Agents in Dynamic Supply Chain Management Environments: Data Mining-Driven Design Choices. Intelligent Systems, 24(3):54–63, 2009. Special issue on Agents and Data Mining. (2.693) 3. Kyriakos C. Chatzidimitriou, Andreas L. Symeonidis, Ioannis Kontogounis, and Pericles A. Mitkas. Agent Mertacor: A robust design for dealing with uncertainty and variation in SCM environments. Expert Systems with Applications, 35(3):591–603, October 2008. (2.539) Πρακτικά ςυνεδρίων με ςφςτθμα κριτϊν 1. Kyriakos C. Chatzidimitriou, Andreas L. Symeonidis, and Pericles A. Mitkas. Policy search through adaptive function approximation for bidding in TAC SCM. In Trading Agent Design and Analysis (TADA) 2012 Workshop held in conjunction with the International Conference on AAMAS 2012, Lecture Notes in Business Information Processing, Springer, 2012. 2. Kyriakos C. Chatzidimitriou, Ioannis Partalas, Pericles A. Mitkas, and Ioannis Vlahavas. Transferring evolved reservoir features in reinforcement learning tasks. In European Workshop on Reinforcement Learning, Lecture Notes in Computer Science, Volume 7188, pages 213-224, 2011. 3. Kyriakos C. Chatzidimitriou, Antonios C. Chrysopoulos, Andreas L. Symeonidis, and Pericles A. Mitkas. Enhancing agent intelligence through evolving reservoir networks for prediction in power stock markets. In Agent and Data Mining Interaction 2011 Workshop held in conjunction with the conference on AAMAS 2011, 2011. 4. Kyriakos C. Chatzidimitriou, Lampros C. Stavrogiannis, Andreas L. Symeonidis, and Pericles A. Mitkas. An adaptive proportional value-per-click agent for bidding in ad auctions. In Trading Agent Design and Analysis (TADA) 2011 Workshop held in conjunction with IJCAI 2011, 2011. 5. Michalis Tsapanos, Kyriakos C. Chatzidimitriou, and Pericles A. Mitkas. A zeroth-level classifier system for real time strategy games. In 2011 IEEE/WIC/ACM International Conference on Intelligent Agent Technology, volume 2, pages 244–247, 2011. 6. Kyriakos C. Chatzidimitriou and Pericles A. Mitkas. A neat way for evolving echo state networks. In European Conference on Artificial Intelligence, IOS Press, August 2010. 7. Kyriakos C. Chatzidimitriou, Andreas L. Symeonidis, and Pericles A. Mitkas. Data mining-driven analysis and decomposition in agent supply chain management networks. In IEEE/WIC/ACM Workshop on Agents and Data Mining Interaction, Sydney, Australia, 9-12 December 2008. 59
  • 60. Δθμοςιεφςεισ/Διακρίςεισ Ανακοινϊςεισ ςε Συνζδρια με Κριτζσ χωρίσ Πρακτικά 1. Kyriakos C. Chatzidimitriou, Fotis Psomopoulos, and Pericles A. Mitkas. Grid-enabled parameter initialization for high performance machine learning tasks. In 5th EGEE User Forum, April 2010. 2. Christos Dimou, Kyriakos C. Chatzidimitriou, Andreas L. Symeonidis, and Pericles A. Mitkas. Creating and reusing metric graphs for evaluating agent performance in the supply chain management domain. In First Workshop on Knowledge Reuse (KREUSE’2008) hosted at the 10th International Conference on Software Reuse, Beijing (China), May 25-29 2008. Διακρίςεισ • 1θ κζςθ ςτον παγκόςμιο διαγωνιςμό ςυναλλαγϊν και εμπορίου με πράκτορεσ λογιςμικοφ – διαδικτυακϊν διαφθμίςεων (Trading Agent Competition – TAC 2012, Ad Auctions game) • Συμμετοχι ςτα τελικά του φοιτθτικοφ διαγωνιςμοφ business plan, e-nnovation 2011, (πρόκριςθ ςτισ 16 κορυφαίεσ από 102 ομάδεσ) • 3θ κζςθ ςτον παγκόςμιο διαγωνιςμό ελεγκτϊν Pac-Man, 2011 • 3θ κζςθ ςτον παγκόςμιο διαγωνιςμό ςυναλλαγϊν και εμπορίου με πράκτορεσ λογιςμικοφ – διαδικτυακϊν διαφθμίςεων (Trading Agent Competition – TAC 2010, Ad Auctions game) • Υποτροφία Αριςτείασ για υποψιφιουσ διδάκτορεσ, 2009, Επιτροπι Ερευνϊν, Α.Π.Θ. 60