Μηχανισμοί Ενισχυτικής Μάθησης και Εξελικτικής Υπολογιστικής για Αυτόνομους Πράκτορες

Μθχανιςμοί ενιςχυτικισ μάκθςθσ
και εξελικτικισ υπολογιςτικισ για
αυτόνομουσ πράκτορεσ
Κυριάκοσ Χ. Χατηθδθμθτρίου

Επιβλζπων: Κακθγθτισ Περικλισ Α. Μιτκασ
Τμιμα Ηλεκτρολόγων Μθχανικϊν και Μθχανικϊν Υπολογιςτϊν
ΑΠΘ

Περιεχόμενα

Ειςαγωγι

Θεωρθτικό Υπόβακρο
• ΔΗΚ
• NEAT
Μεκοδολογία NEAR

Αξιολόγθςθ Επιδόςεων

Μεταφορά Μάκθςθσ

Πρόβλεψθ Χρονοςειρϊν

Εφαρμογι 1: Εφοδιαςτικι Αλυςίδα

Εφαρμογι 2: Διαδικτυακζσ Διαφθμίςεισ

Εφαρμογι 3: Πόκερ

Συμπεράςματα και Μελλοντικζσ Επεκτάςεισ

2

Ενότθτα 1

Ειςαγωγι

Αυτόνομοι Πράκτορεσ

Agenda Μζλλον

Αυτόνομοι Πράκτορεσ

4

Περιγραφι του Προβλιματοσ

Σθμαντικότεροσ ςτόχοσ ΤΝ ⇒ δθμιουργία αυτόνομων πρακτόρων

Κατάλλθλθ προςζγγιςθ ⇒ ενιςχυτικι μάκθςθ

Πραγματικόσ κόςμοσ ⇒ γενίκευςθ

Παραμετρικζσ ςυναρτιςεισ
προςζγγιςθσ ⇒ ανάγκθ
ειδικϊν

Προςαρμοηόμενεσ
ςυναρτιςεισ
προςζγγιςθσ
5

Στόχοσ τθσ Διατριβισ

Σχεδίαςθ μιασ ικανισ μεκόδου προςαρμογισ, μιασ
παραμετρικισ ςυνάρτθςθσ προςζγγιςθσ
• Υψθλζσ επιδόςεισ ςε ευρεία γκάμα προβλθμάτων

Αξιολόγθςθ τθσ μεκόδου

Συςτατικά

• Παραμετρικι ςυνάρτθςθ προςζγγιςθσ
• Μζκοδοσ προςαρμογισ

6

Μεκοδολογία
Προςεγγιςτικι Συνάρτθςθ Δίκτυα Ηχωικϊν Καταςτάςεων (Echo State Networks)
(Function Approximator) • Δίκτυα με αναδράςεισ (RNN)
Υβριδικι μζκοδοσ • Χρονικά, μθ-γραμμικά (Non-linear, Non-Markovian)
(Hybrid method) • Γραμμικι μάκθςθ
• Θεωρθτικά και πειραματικά αξιολογθμζνα
• Τυχαίοσ τρόποσ δθμιουργίασ
NeuroEvolution of Augmented Topologies (NEAT)
Ενιςχυτικι • State-of-the-art neuroevolution μζκοδοσ
Μάκθςθ • Ζλυςε προβλιματα:
• Πρόωρθσ ςφγκλιςθσ
• Ανταγωνιςτικϊν ςυμβάςεων
• Βιολογικά βαςιςμζνθ και πειραματικά αξιολογθμζνθ μεκοδολογία
• Ad-hoc δίκτυα, κλαςςικζσ μζκοδοι μάκθςθσ, όχι γραμμικά χαρακτθριςτικά
Νευρωνικά Εξελικτικι Συνδυαςμόσ Μάκθςθσ και Εξζλιξθσ
Δίκτυα Υπολογιςτικι
• Βελτίωςθ μζτα-παραμζτρων
• Ταυτόχρονθ ςυνολικι και τοπικι βελτιςτοποίθςθ

Νευροεξζλιξθ
(Neuroevolution)
NEAR
7

Χαρακτθριςτικά Μεκόδου
Μοντελοποίθςθ και μθ γραμμικϊν περιβαλλόντων

Υποςτιριξθ και μθ Μαρκοβιανϊν ςθμάτων
κατάςταςθσ

Ατζρμονθ προςαρμογι (Open-ended)

Αυτόνομθ προςαρμογι

Δυναμικι προςαρμογι

Θεωρθτικά/Πειραματικά τεκμθριωμζνα ςυςτατικά
8

Ενότθτα 2

Θεωρθτικό Υπόβακρο

Παράδειγμα Δικτφου Ηχωικϊν Καταςτάςεων
K1 K2 N1 N2 N3
-0.25 0.44 0.15 -0.87 0.04 L1
Wout =
0.33 -0.71 0.14 -0.56 0.11 L2

Κ1
K1 K2
N1
-0.25 0.45 N1 L1
Win = 0.15 0.05 N2
N2
-0.68 -0.22 N3
L2
Κ2 N3

N1 N2 N3
0.83 0 -0.45 N1
W= 0 0 0 N2
0.16 0 0 N3

10

Δίκτυα Ηχωικϊν Καταςτάςεων
Πρακτικι δθμιουργίασ ΔΗΚ
• W αραιόσ
• D→0
• N >> 0
• μ(W) = 0
• ρ<1
• αδφναμοσ λευκόσ κόρυβοσ v

Μάκθςθ  Προςαρμογι Wout
• Linear Least Squares
• SARSA μζςω gradient descent
• Policy search μζςω CMA-ES

11

ΝΕΑΤ
• Μινιμαλιςτικι αρχικοποίθςθ
και περιπλοκι (Start minimally and
complexify)

• Μετάλλαξθ βαρϊν και τοπολογίασ
(Weight & structural mutation)

• Ομαδοποίθςθ ςε είδθ (Speciation) για
τθν προςταςία καινοτομιϊν (clustering to
protect innovation)
– Καταπολζμθςθ πρόωρθσ ςφγκλιςθσ
(battle premature convergence)

1 2 1 2
3
3
• Διαςταφρωςθ (Crossover) δικτφων με
ιςτορικι δεικτοδότθςθ (historical
markings) ςτισ ςυνδζςεισ
1 2
3

12

Αναπαράςταςθ γονιδιϊματοσ

Γονότυποσ (Direct encoding)
Genome

Win W Wout ρ D

Scale W ~ ρ

Φαινότυποσ

14

1. Αρχικοποίθςθ Πλθκυςμοφ

• Ν = 1 (XOR)
• D ∈ (0,1]
• ρ ∈(0,1)

• Αρχικοποίθςθ και με
περιςςότερουσ νευρϊνεσ
ταμιευτθρίου

15

2. Αξιολόγθςθ Γονιδιϊματοσ

• Υπολογιςμόσ fitness για
ζναν αρικμό επειςοδίων
• Δυνατότθτα μάκθςθσ κατά
τθ διάρκεια των επειςοδίων
– π.χ. SARSA TD-learning με GD

16

3. Ομαδοποίθςθ ςε είδθ και επιλογι

Ομαδοποίθςθ με βάςθ μακροςκοπικά
χαρακτθριςτικά του δικτφου:

Για κάκε γονιδίωμα - adjusted fitness:

Για κάκε είδοσ - αρικμόσ απογόνων:

Intra-species αναπαραγωγι και με μικρι
πικανότθτα inter-species
17

4. Μετάλλαξθ

• Μετάλλαξθ βαρϊν: perturbations και restarts
• Μετάλλαξθ D και ρ
• Προςκικθ κόμβου
-0.84 0 0 -0.84 0 0 0 1
0.55 0 0.25 0.55 0 0.25 0
2
-0.68 0.15 0 -0.68 0.15 0 0
0 0 0 0 3

• Προςκικθ ςφνδεςθσ
4

-0.84 0 0 0 -0.84 0 0 0
0.55 0 0.25 0 0.55 0 0.25 0
-0.68 0.15 0 0 -0.68 0.15 0 -0.06
0 0 0 0 0 0 0 0

18

5. Διαςταφρωςθ

0 0 . 83 0 0 . 94 0 . 34
0 . 42 0 . 67 0 0 . 34 0
0 . 84 0 0
0 0 . 63 0 . 03 0 0
0 . 55 0 0 . 25
0 . 38 0 0 0 0
0 . 68 0 . 15 0
0 0 0 . 68 0 0

0 0.83 0
0.94 -0.34
-0.84 0 0 Matching
0.42 -0.67 0
0.34 0
0.55 0 0.25 Disjoint
0 -0.63 0.03
0 0
-0.68 0.15 0 Excess Prune ~ D
-0.38 0 0 0 0
0 0 -0.68 0 0

Matching: Μζςοσ όροσ
Ευκυγράμμιςθ ςτο επίπεδο των
Disjoint: Κρατοφνται
κόμβων με βάςθ τθν ιςτορικι
Excess: Κρατοφνται αν επιλεγεί ο largest
δεικτοδότθςθ
ζναντι του fittest parent 19

Τφποι εξζλιξθσ

• Λαμαρκιανι (Lamarckian)
– Ο Wout μεταφζρεται από γενιά ςε γενιά
• Δαρβίνια (Darwinian)
– Ο Wout δθμιουργείται εκ νζου ςε κάκε γενιά
– Baldwin effect: Η μάκθςθ βοθκάει να επιλζξει θ
εξζλιξθ το γονιδίωμα που μακαίνει καλφτερα,
ζτςι επικυμθτά χαρ/κά του δικτφου μεταφζρονται
χωρίσ να μεταφζρεται και θ γνϊςθ που απζκτθςε

20

Ενότθτα 4

Αξιολόγθςθ επιδόςεων και
ςυμπεριφοράσ

Πλατφόρμα Αξιολόγθςθσ
• 10 προβλιματα ενιςχυτικισ μάκθςθσ
– 50 runs ανά πρόβλθμα
• Cross-validation (supervised learning)
– training + validation + test (unbiased)

Αξιολόγθςθ • Μάκθςθ ενεργι
Πλθκυςμοφ • 100 επειςόδια/γονιδίωμα
Γενιάσ • Μζςοσ όροσ ςυνολικισ ανταμοιβισ (fitness)
(Training) • Τυχαία επανεκκίνθςθ επειςοδίων

Champion

Αξιολόγθςθ • Μάκθςθ ανενεργι
Πρωτακλθτϊν • 1000 επειςόδια/πρωτακλθτι
(Validation) • Τυχαία επανεκκίνθςθ επειςοδίων
Champion
Performance
Champion
Αξιολόγθςθ of Champions
• Μάκθςθ ανενεργι
Πρωτακλθτι • 1000 επειςόδια Επιλεχκζν
Πρωτακλθτϊν • Τυχαία επανεκκίνθςθ επειςοδίων δίκτυο
(Testing)

Generalization
Performance 22

Προβλιματα και Μζκοδοι

Π1. 2D Mountain Car – Markov NEAT
Π2. 2D Mountain Car – Non-Markov NEAR+TD+L
Π3. 3D Mountain Car – Markov NEAR+TD+D
Π4. 3D Mountain Car – Non-Markov
NEAR+PS
Π5. Server Job Scheduling
Π6. Single Pole Balancing – Markov ESN
Π7. Single Pole Balancing – Non-Markov
Π8. Double Pole Balancing – Markov
Π9. Double Pole Balancing – Non-Markov
Π10. Double Pole Balancing – Non Markov NEAR+PS vs. 12 different
with dumping fitness function algorithms [GMZ2006]

23

Αποτελζςματα
Π1-Π5 Π6-Π10
Μζκοδοσ GP μ(ranks)
NEAT 3.8
NEAR+TD+L 1.8
NEAR+TD+D 3.2
NEAR+PS 1.6
ESN 4.8 • 1 επειςόδιο: solution found or not!
• Όχι τυχαίεσ επανεκκινιςεισ
• NEAR+PS
• Μετρικι: # αξιολογθμζνων δικτφων
Συμπεράςματα:
• Στατιςτικι ςθμαντικότθτα ςτθν υπεροχι του NEAR ζναντι του NEAT και των ESN
• Lamarckian evolution > Darwinian evolution
• Περιςςότεροι νευρϊνεσ ςτα NM
• μ(D) ~ 0.5
• Η βελτιςτοποίθςθ καταργεί τθν ζννοια του αραιοφ ΔΗΚ (Fully connected RNN)

24

Ενότθτα 5


Πρόβλθμα

• Μεταφορά τθσ μάκθςθσ που αποκτικθκε ςε
μία πηγαία εργαςία για τθ διευκόλυνςθ τθσ
μάκθςθσ ςε μια άλλθ, διαφορετικι, άλλα
ςχετικι, εργαςία ςτόχο
• Σκοπόσ τθσ επζκταςθσ:
– Εκμάκθςθ λφςεων του προβλιματοσ
γρθγορότερα
– Καλφτερθ αςυμπτωτικι ςυμπεριφορά

26

Προβλιματα Αξιολόγθςθσ
Mountain Car Server Job Scheduling

source

target

2D – Markov ⇒ 3D – Markov
2 τφπουσ εργαςιϊν ⇒ 4 τφπουσ εργαςιϊν
2D – Non-Markov ⇒ 3D – Non-Markov
27

Μετρικζσ

28

Προςεγγίςεισ

Agnostic + Reservoir Transfer

Inter-task mappings + Reservoir Transfer [TWS07]

Inter-task mappings + Reservoir Doubling

29

Αποτελζςματα - Αςυμπτωτικι Συμπεριφορά

Εξζλιξθ
εξ’ αρχισ

Προςεγγίςεισ
μεταφοράσ
μάκθςθσ

Στατιςτικά ςθμαντικι διαφορά

30

Αποτελζςματα - Ταχφτθτα ςφγκλιςθσ
3DMC-M

SJS

3DMC-NM

Πιο ξεκάκαρθ διαφορά

31

Ενότθτα 6

Πρόβλεψθ χρονοςειρϊν

Χρονοςειρζσ

Mackey-Glass Multiple Superimposed
Lorentz Oscillator

Ηλεκτρικό φορτίο
(ΔΕΣΜΗΕ)

33

Πλαίςιο αξιολόγθςθσ
Χρονοςειρά

W Training Val.

Target

Επιλογι καλφτερου δικτφου χωρίσ το validation set
W W … W
Πρόβλεψθ
…

Σφάλμα γενίκευςθ ςτο validation set
W Πρόβλεψθ

34

Mackey-Glass Ηλεκτρικό φορτίο

Lorentz

MSO

35

Ενότθτα 7

Διαχείριςθ εφοδιαςτικισ αλυςίδασ

Περιγραφι προβλιματοσ

Δθμοπραςίεσ τφπου:
Sealed-bid first-price

37

Στόχοσ

Ζνασ πράκτορασ ςτο διαγωνιςμό TAC SCM κα πρζπει: «Να πουλάει ςε όςο το
δυνατόν υψθλότερθ τιμι και να αγοράηει ςε όςο το δυνατόν χαμθλότερθ,
διατθρϊντασ ςτο μζγιςτο τθ ρυκμαπόδοςθ (throughput) τόςο ςτο
εργοςτάςιο όςο και ςτθν αποκικθ και αποφεφγοντασ τισ αςτοχίεσ ςτισ
παραδόςεισ των υπολογιςτϊν» [CSM2008]

38

Μθχανιςμόσ Πλειοδοςίασ
Τιμι προςφοράσ
• Για κάκε RFQ δϊςε μία τιμι προςφοράσ (bid)

Πικανότθτα αποδοχισ προςφορά
• Για κάκε RFQ: Pr(accepted|bid)

Εκτιμϊμενο Utility
• U = Pr(accepted|bid) * bid / cycles

Ταξινόμθςθ
• Sort ~ Utility

Επιλογι προςφορϊν
• Επιλογι RFQs ζωσ τθ ςυμπλιρωςθ 2000 κφκλων
• C += Pr(accepted|bid) * CRFQ
39

Pr(offer=accepted|bid)

• Logistic Regression
1
f (z) = -z
, z = w1 x1 + w2 x2 +... + wn xn
1+ e
Feature w
Current Date -0.19
Base Price -0.67
Due Date -1.26
Quantity 0.80
Max Price 17.96
Min Price 1.61
Total Quantity 0.52
Reserve Price 2.39
Offer Price -22.94 40

Τιμι προςφοράσ

• Πρόβλεψθ από ιςτορικά δεδομζνα τιμισ αποδοχισ
– Regression Trees
• M5’
• CART
• Βελτιςτοποίθςθ με ςμινοσ ςωματιδίων (Particle
Swarm Optimization)
– Κάκε ςωματίδιο αποτελεί μία λφςθ (p1,p2, … ,pn)
– Προςομοίωςθ, 100 ςωμ. 100 επαν., 1’’
• Ευριςτικόσ ζλεγχοσ με κανόνεσ
– bid = f * max price
– κανόνεσ μεταβολισ του f : factory utilization = 100%

41

Προςζγγιςθ με NEAR

• Μοντελοποίθςθ ευριςτικοφ ελζγχου ωσ MDP
– Ιδζα: Κακθμερινά κζλω να κερδίηω παραγγελίεσ
φψουσ 2000 κφκλων εργοςταςίου και να ζχω
2000 κφκλουσ ςτθν ουρά
– States: {WonCycles/Cap., QueuedCycles/Cap.}
– Actions: f={0.9, 0.91, 0.92, … , 1.14, 1.15}, |f| = 16
– Scalar Reward:
r = -[|(WonCycles – Cap)/Cap| + |(QueuedCycles – Cap)/Cap|)]

42

Adjusted Total Revenue ($M) Μζςοσ όροσ κφκλων εργοςταςίου

Εκπαίδευςθ: TAC SCM 2011 semifinals Στατιςτικά ςθμαντικι διαφορά
Τεςτ: TAC SCM 2011 finals ςυνολικά και ανά δφο
Μετρικι: Λαμβάνει υπόψιν τθν υπζρβαςθ των κφκλων (Friedman - Wilcoxon)
του εργοςταςίου
43

Ενότθτα 8

Διαδικτυακζσ Διαφθμίςεισ

Περιγραφι Προβλιματοσ

45

Ο πράκτορασ Mertacor
Βαςικι ςτρατθγικι: value-per-click
q q
bid d 1
a v d 1 ^

ˆ
v
q q
Pr { conversion | click } E [ revenue
q
| conversion ]
^ ^

| focused }( Iˆd 1 )
q q q
Pr { conversion | click } focusedPer centage Pr { conversion

Particle Filtering Game Theoretical
Estimation
Mertacor
User State Heuristic Rule
Estimation α Ad Selection

VPC Estimation
Ads
Moving Average
Bids
Budget
Id Estimation
Reports

CPC Estimation Budget
Regression
Monte Carlo
Simulation 46

Αρχικι Εκτίμθςθ

• Simulation based game theoretical analysis
• Iterative best response equilibrium search
α=0.33
• Πολφ καλι τιμι (1θ κζςθ 2012), αλλά μιπωσ
μποροφμε καλφτερα:
π.χ. α ~ 0.25,
– Στακερι (Fixed) Μεγάλα κζρδθ
– Γραμμικι (Linear)
– Μυωπικι (Myopic)

47

Βελτιωμζνθ προςζγγιςθ με NEAR

• Αssociative n-armed bandit problem with
memory
– States: {VPC}
– Actions: α={0.2, 0.21, 0.22, … , 0.39, 0.40}, |α| = 21
– Scalar Reward: r = revenue – CPC x #clicks
• 50 οργανιςμοί, 50 γενιζσ
• Βάρθ εξόδου με μάκθςθ από τα ιςτορικά
δεδομζνα:
– ~100Κ tuples
– VPC, α, r

48

Αποτελζςματα διαγωνιςμοφ Στοχευμζνο πείραμα
Δφο τφποι
TAC AA 2012 Mertacor και
διάφοροι
α=0.33
πράκτορεσ
α=0.3
+α=0.33
+Budget Estimation
+Particle Filtering

Εκπαίδευςθ NEAR

α=0.33

Τελικά

Προθμιτελικά Ημιτελικά Μικρό κζρδοσ αλλά
εξαιρετικά χριςιμο ςε
πολφ ανταγωνιςτικά
περιβάλλοντα 49

Περιγραφι παιχνιδιοφ

1. Preflop
2. Flop
3. Turn
4. River

51

Περιγραφι προβλιματοσ

• Εφρεςθ τθσ βζλτιςτθσ παιχνιδοκεωρθτικισ
μικτισ ςτρατθγικισ
– Πικανότθτεσ επιλογισ μίασ ενζργειασ
{Fold, Check/Call, Bet/Raise}
– Στρατθγικι που κανείσ δεν μπορεί να
εκμεταλλευτεί
• Διάςτθμα αναηιτθςθσ: O(1018)
• Αφαιρετικό μοντζλο
– Π.χ. PsOpti O(107), pseudo-optimal

52

Μοντελοποίθςθ

• Αντί των O(1018)
καταςτάςεων • Υπολογιςμοί
• Normalization
χρθςιμοποιοφμε το Χαρακτθριςτικό
Πικανότθτα να ζχουμε καλφτερο
Διάνυςμα
χαρακτθριςτικό διάνυςμα: φφλλο ςτο ςυγκεκριμζνο γφρο από
όλα τα τυχαία φφλλα που μπορεί να
1. Hand Strength ζχει ο αντίπαλοσ
• Chen’s pre-flop formula • Δθμιουργία χρονικϊν, μθ-
γραμμικϊν χαρακτθριςτικϊν
2. Effective Hand Strength HS, PP, NP
PP: Η πικανότθτα το•φφλλο μασ να
2 ζξοδοι: Q(check/call), Q(bet/raise)
3. Preflop βελτιωκεί ΔΗΚ όλωνQ(fold) υπολογίηεται απευκείασ
ζναντι • των τυχαίων
4. Flop ςυνδυαςμϊν των φφλλων του
αντιπάλου
5. Turn ΝP: Ομοίωσ να χειροτερεφςει
6. River • Softmax: Values to Probabilities
7. Pot Mixed • Roulette wheel
κόςτοσ call / (κόςτοσ call + ποςό pot)
8. Pot-odds Strategy
9. Dealer button

53

Εκπαίδευςθ ΔΗΚ

• TiltNet-100 and TiltNet-200
– 100 και 200 νευρϊνεσ ςτο ταμιευτιριο
– D = 0.15, ρ = 0.85
– 2,618 (218) και 7,218 (418) βάρθ
• 800Κ hands
– Showdown
– Κάκε hand μπορεί να ζχει διαφορετικό αρικμό
δειγμάτων
• 30 περάςματα
– Iterative learning gradient descent
54

Πειράματα και Αξιολόγθςθ

TiltNet-100 Καλφτερα vs. PokiBot and Sparbot

TiltNet-200
Τα περιςςότερα features
αυξάνουν τθν ικανότθτα
του δικτφου απζναντι ςε
μθ προβλζψιμουσ αντιπάλουσ
(καλφτερθ δυνατότθτα γενίκευςθσ)

Τα περιςςότερα features TiltNet-100
αυξάνουν τουσ χρόνουσ 3h 30’
εκπαίδευςθσ
TiltNet-200
12h 50’
3.5 1000 55

Ενότθτα 10

Συμπεράςματα και Μελλοντικζσ
Επεκτάςεισ

Συμπεράςματα
Γενικά:
• NEAR, ιςοδφναμθ αν όχι καλφτερθ μζκοδοσ από αντίςτοιχεσ μεκόδουσ αιχμισ
• Καλι γενίκευςθ και ευρωςτία ςε πλειάδα εφαρμογϊν
• Τεχνικζσ μάκθςθσ για ακρίβεια ςτισ εκτιμιςεισ
• Τεχνικζσ εξζλιξθσ για προβλιματα ενιςχυτικισ μάκθςθσ
• Γζφυρα ανάμεςα ςτα ΔΗΚ και τα πλιρωσ ςυνδεδεμζνα RNN
• Βελτιςτοποιθμζνα μθ-γραμμικά χρονικά χαρακτθριςτικά που εκπαιδεφονται με γραμμικό
τρόπο
Μεταφορά Μάκθςθσ:
• Βελτίωςθ τθσ αςυμπτωτικισ ςυμπεριφοράσ και τθσ ταχφτθτασ ςφγκλιςθσ
• Μικρά περικϊρια βελτίωςθσ ςτα υπό μελζτθ προβλιματα
Πρόβλεψθ Χρονοςειρϊν:
• Ακριβείσ προβλζψεισ
• Απαίτθςθ για “loosely-coupled clusters of closely-coupled nodes”
Εφαρμογζσ: Πόκερ:
• Τμιμα τθσ διαδικαςίασ λιψθσ αποφάςεων • Εφρεςθ βαςικϊν μικτϊν ςτρατθγικϊν
• Βελτίωςθ τθσ απόδοςθσ των πρακτόρων • Απαίτθςθ για ειδικό software/hardware

57

Μελλοντικζσ Επεκτάςεισ
Βελτιϊςεισ ςτθ μζκοδο NEAR • Leaky integrator neurons
• Νζα προβλιματα • feedback connectivity
• RLS-TD
• • LSPI
intrinsic plasticity
• Επζκταςθ μοντζλου ΔΗΚ• Gaussian
• • iLSTD
multiple read-out functions
• Μζκοδοι μάκθςθσ mutation • GQ
• PEGASUS • CMA-ES
• Συνεξζλιξθ
• Μθ-ςτάςιμα περιβάλλοντα

• Πιο περίπλοκα προβλιματα
• Inter-domain transfer learning

SCM & ΑΑ Agents
• Βελτιϊςεισ ςτουσ αλγορίκμουσ βελτιςτοποίθςθσ και εκτίμθςθσ
• Ενιςχυτικι μάκθςθ με ςυνεχείσ ενζργειεσ

Πόκερ
• Bias-Variance trade-off
• Map-reduce
• Μοντελοποίθςθ αντιπάλου
• Ring/No-limit games 58

Δθμοςιεφςεισ
Περιοδικά με ςφςτθμα κριτϊν
1. Kyriakos C. Chatzidimitriou and Pericles A. Mitkas. Adaptive Reservoir Computing through Learning and Evolution.
Neurocomputing, Elsevier, Available online. (1.840)
2. Kyriakos C. Chatzidimitriou and Andreas L. Symeonidis. Agents in Dynamic Supply Chain Management Environments: Data
Mining-Driven Design Choices. Intelligent Systems, 24(3):54–63, 2009. Special issue on Agents and Data Mining. (2.693)
3. Kyriakos C. Chatzidimitriou, Andreas L. Symeonidis, Ioannis Kontogounis, and Pericles A. Mitkas. Agent Mertacor: A robust
design for dealing with uncertainty and variation in SCM environments. Expert Systems with Applications, 35(3):591–603,
October 2008. (2.539)
Πρακτικά ςυνεδρίων με ςφςτθμα κριτϊν
1. Kyriakos C. Chatzidimitriou, Andreas L. Symeonidis, and Pericles A. Mitkas. Policy search through adaptive function
approximation for bidding in TAC SCM. In Trading Agent Design and Analysis (TADA) 2012 Workshop held in conjunction with
the International Conference on AAMAS 2012, Lecture Notes in Business Information Processing, Springer, 2012.
2. Kyriakos C. Chatzidimitriou, Ioannis Partalas, Pericles A. Mitkas, and Ioannis Vlahavas. Transferring evolved reservoir features
in reinforcement learning tasks. In European Workshop on Reinforcement Learning, Lecture Notes in Computer Science,
Volume 7188, pages 213-224, 2011.
3. Kyriakos C. Chatzidimitriou, Antonios C. Chrysopoulos, Andreas L. Symeonidis, and Pericles A. Mitkas. Enhancing agent
intelligence through evolving reservoir networks for prediction in power stock markets. In Agent and Data Mining Interaction
2011 Workshop held in conjunction with the conference on AAMAS 2011, 2011.
4. Kyriakos C. Chatzidimitriou, Lampros C. Stavrogiannis, Andreas L. Symeonidis, and Pericles A. Mitkas. An adaptive proportional
value-per-click agent for bidding in ad auctions. In Trading Agent Design and Analysis (TADA) 2011 Workshop held in
conjunction with IJCAI 2011, 2011.
5. Michalis Tsapanos, Kyriakos C. Chatzidimitriou, and Pericles A. Mitkas. A zeroth-level classifier system for real time strategy
games. In 2011 IEEE/WIC/ACM International Conference on Intelligent Agent Technology, volume 2, pages 244–247, 2011.
6. Kyriakos C. Chatzidimitriou and Pericles A. Mitkas. A neat way for evolving echo state networks. In European Conference on
Artificial Intelligence, IOS Press, August 2010.
7. Kyriakos C. Chatzidimitriou, Andreas L. Symeonidis, and Pericles A. Mitkas. Data mining-driven analysis and decomposition in
agent supply chain management networks. In IEEE/WIC/ACM Workshop on Agents and Data Mining Interaction, Sydney,
Australia, 9-12 December 2008.

59

Δθμοςιεφςεισ/Διακρίςεισ
Ανακοινϊςεισ ςε Συνζδρια με Κριτζσ χωρίσ Πρακτικά
1. Kyriakos C. Chatzidimitriou, Fotis Psomopoulos, and Pericles A. Mitkas. Grid-enabled parameter initialization for high
performance machine learning tasks. In 5th EGEE User Forum, April 2010.
2. Christos Dimou, Kyriakos C. Chatzidimitriou, Andreas L. Symeonidis, and Pericles A. Mitkas. Creating and reusing metric
graphs for evaluating agent performance in the supply chain management domain. In First Workshop on Knowledge Reuse
(KREUSE’2008) hosted at the 10th International Conference on Software Reuse, Beijing (China), May 25-29 2008.
Διακρίςεισ
• 1θ κζςθ ςτον παγκόςμιο διαγωνιςμό ςυναλλαγϊν και εμπορίου με πράκτορεσ λογιςμικοφ – διαδικτυακϊν διαφθμίςεων
(Trading Agent Competition – TAC 2012, Ad Auctions game)
• Συμμετοχι ςτα τελικά του φοιτθτικοφ διαγωνιςμοφ business plan, e-nnovation 2011, (πρόκριςθ ςτισ 16 κορυφαίεσ από 102
ομάδεσ)
• 3θ κζςθ ςτον παγκόςμιο διαγωνιςμό ελεγκτϊν Pac-Man, 2011
• 3θ κζςθ ςτον παγκόςμιο διαγωνιςμό ςυναλλαγϊν και εμπορίου με πράκτορεσ λογιςμικοφ – διαδικτυακϊν διαφθμίςεων
(Trading Agent Competition – TAC 2010, Ad Auctions game)
• Υποτροφία Αριςτείασ για υποψιφιουσ διδάκτορεσ, 2009, Επιτροπι Ερευνϊν, Α.Π.Θ.

60

Μηχανισμοί Ενισχυτικής Μάθησης και Εξελικτικής Υπολογιστικής για Αυτόνομους Πράκτορες

Recommended

Recommended

More Related Content

Similar to Μηχανισμοί Ενισχυτικής Μάθησης και Εξελικτικής Υπολογιστικής για Αυτόνομους Πράκτορες

Similar to Μηχανισμοί Ενισχυτικής Μάθησης και Εξελικτικής Υπολογιστικής για Αυτόνομους Πράκτορες (7)

More from Kyriakos Chatzidimitriou

More from Kyriakos Chatzidimitriou (7)

Μηχανισμοί Ενισχυτικής Μάθησης και Εξελικτικής Υπολογιστικής για Αυτόνομους Πράκτορες