SlideShare a Scribd company logo
Multi-agent RL
in
Sequential Social Dilemmas
Paper Review
MARL in SSD
• Multi Agent Reinforcement Learning
• Sequential Social Dilemmas
=> Understanding Agent Cooperation
=> In sequential situation ( mixed incentive sturcutre of matrix game social dilemma )
learn policies.
Sequential situation
Fruit Gathering
Wolfpack Hunting
Social Dilemma
• A social dilemma is a situation in which an
individual profits from selfishness unless everyone
chooses the selfish alternative, in which case the
whole group loses => Represent with Matrix game
Matrix Game – prisoner’s dilemma
Nash Equilibrium
This is Best Choice..
in global perspective
Betrayal Cooperate Matrix Game Social Dilemma
== MGSD
Rational agent
choice this
( Think reward is - )
MGSD ignores…
1. In real world’s social dilemmas are temporally extended
2. Cooperation and defection are labels that apply to polices implementing
strategic decision
3. Cooperativeness may be a graded quantity
4. Decision to cooperate or defect occur only quasi-simultaneously since some
information about what player 2 is starting to do can inform player 1’s decision
and vice versa
5. Decision must be made despite only having partial information about the
state of the world and the activities of the other players
Sequential Social Dilemma
SSD
= Markov Games +
Matrix Game Social
Dilemma
SSD – Markov Games
two-player partially observable Markov game : M => O : S x {1,2}
# O = { o_i | s, o_i }
Transition Function T : S x A_1 x A_2 -> delta(S) ( discrete probability distributions )
Reward Function r_i : S x A1 x A2
Policy π : O_i -> delta(A_i)
== Find MGSD with Reinforcement Learning
Value-state function
SSD – Definition of SSD
Sequential Social Dilemma
Empirical payoff matrix
Markov game에서 observation이 변함에 따라 policy가 변화
Learning Algorithm
== Deep Multiagent Reinforcement Learning
Use Deep Q-Network
Uniform Dist.
Simulation Method
Game : 2D grid-world
Observation : 3( RGB )
x 15(forehead) x 10(side)
Action :
8 ( arrow keys + rotate left + rotate right
+ use beam + stand )
Episode : 1000 step
NN : two Hidden layer – 32 unit
+ relu activation 8 output
Policy : e-greedy ( decrease e 1.0 to 0.1 )
Result – Gathering
Reward가 없지만… laser로 other agent를 잠깐 없앰
먹을게 (초록) 많으면 공존하면서 reward를 얻고,
적으면 서로 공격하기 시작함
Result – Gathering
Touch Green : reward +1 ( green removed temporally )
Beam to other player : (tagging)
hit twice, remove opponent from game N_tagged frames
Apple respawns after N_apple frames
=>
Defecting Policy == aggressive ( use beam )
Coopertive Policy == not seek to tag the other player
https://www.youtube.com/watch?v=F97lqqpcqsM
Result – Gathering
*After training for 4- million steps for each option
Conflict cost
Abundance
Highly Agressive
Low Agressive
RL to SSD
1. Train Policies at Different Game
2. Extract trained Policies from 1.
3. Calculate MGSD
4. Repeat 2-3 Until Converge
Gathering : DRL to SSD
Prisoner Dilemma
or
Non-SSD : ( NE is Global Optimal )
Wolfpack
함께 잡으면 더 높은 Reward
Wolfpack
r_team : reward when touch prey same
time
radius : capture radius ( collision size )
== difficulty of capture
Wolfpack SSD
Material Link
• https://arxiv.org/pdf/1702.03037.pdf
• https://deepmind.com/blog/understanding-agent-
cooperation/

More Related Content

What's hot

Διαγωνισμα Αρσάκειο μέχρι αντίστροφη συνάρτηση
Διαγωνισμα Αρσάκειο μέχρι αντίστροφη συνάρτησηΔιαγωνισμα Αρσάκειο μέχρι αντίστροφη συνάρτηση
Διαγωνισμα Αρσάκειο μέχρι αντίστροφη συνάρτηση
Μάκης Χατζόπουλος
 
ισα συνολα – υποσυνολα – πραξεις μεταξυ συνολων
ισα συνολα – υποσυνολα – πραξεις μεταξυ συνολωνισα συνολα – υποσυνολα – πραξεις μεταξυ συνολων
ισα συνολα – υποσυνολα – πραξεις μεταξυ συνολωνKozalakis
 
Introduction to SAC(Soft Actor-Critic)
Introduction to SAC(Soft Actor-Critic)Introduction to SAC(Soft Actor-Critic)
Introduction to SAC(Soft Actor-Critic)
Suhyun Cho
 
Senario απλής και σύνθετης δομής επιλογής
Senario απλής και σύνθετης δομής επιλογής Senario απλής και σύνθετης δομής επιλογής
Senario απλής και σύνθετης δομής επιλογής
Nikolaos Bakopoulos
 
Κεφ. 2 Βασικές Έννοιες Αλγορίθμων
Κεφ. 2 Βασικές Έννοιες ΑλγορίθμωνΚεφ. 2 Βασικές Έννοιες Αλγορίθμων
Κεφ. 2 Βασικές Έννοιες ΑλγορίθμωνΙωάννου Γιαννάκης
 
104 ερωτήσεις θεωρίας
104 ερωτήσεις θεωρίας104 ερωτήσεις θεωρίας
104 ερωτήσεις θεωρίας
Μάκης Χατζόπουλος
 
Επαναληπτικό διαγώνισμα μέχρι την αντίστροφη συνάρτηση - Αρσάκειο 2017 - 18
Επαναληπτικό διαγώνισμα μέχρι την αντίστροφη συνάρτηση - Αρσάκειο 2017 - 18Επαναληπτικό διαγώνισμα μέχρι την αντίστροφη συνάρτηση - Αρσάκειο 2017 - 18
Επαναληπτικό διαγώνισμα μέχρι την αντίστροφη συνάρτηση - Αρσάκειο 2017 - 18
Μάκης Χατζόπουλος
 
Γραφικές παραστάσεις βασικών συναρτήσεων με βασικές ιδιότητες
Γραφικές παραστάσεις βασικών συναρτήσεων με βασικές ιδιότητεςΓραφικές παραστάσεις βασικών συναρτήσεων με βασικές ιδιότητες
Γραφικές παραστάσεις βασικών συναρτήσεων με βασικές ιδιότητες
Μάκης Χατζόπουλος
 
Α 1.4 ΠΟΛΛΑΠΛΑΣΙΑΣΜΟΣ ΠΟΛΥΩΝΥΜΩΝ
Α 1.4 ΠΟΛΛΑΠΛΑΣΙΑΣΜΟΣ ΠΟΛΥΩΝΥΜΩΝΑ 1.4 ΠΟΛΛΑΠΛΑΣΙΑΣΜΟΣ ΠΟΛΥΩΝΥΜΩΝ
Α 1.4 ΠΟΛΛΑΠΛΑΣΙΑΣΜΟΣ ΠΟΛΥΩΝΥΜΩΝ
ΚΩΣΤΑΣ ΓΚΑΒΕΡΑΣ
 
Πέντε ασκήσεις χαρακτηριστικές στο σχήμα Horner
Πέντε ασκήσεις χαρακτηριστικές στο σχήμα HornerΠέντε ασκήσεις χαρακτηριστικές στο σχήμα Horner
Πέντε ασκήσεις χαρακτηριστικές στο σχήμα Horner
Μάκης Χατζόπουλος
 
ΒΙΟΓΡΑΦΙΚΟ ΣΗΜΕΙΩΜΑ
ΒΙΟΓΡΑΦΙΚΟ ΣΗΜΕΙΩΜΑΒΙΟΓΡΑΦΙΚΟ ΣΗΜΕΙΩΜΑ
ΒΙΟΓΡΑΦΙΚΟ ΣΗΜΕΙΩΜΑJim Samios
 
το πληθος των ριζων Rolle
το πληθος των ριζων Rolleτο πληθος των ριζων Rolle
το πληθος των ριζων RolleKozalakis
 
PRML勉強会@長岡 第4章線形識別モデル
PRML勉強会@長岡 第4章線形識別モデルPRML勉強会@長岡 第4章線形識別モデル
PRML勉強会@長岡 第4章線形識別モデルShohei Okada
 
βασική βοηθητική πρόταση συνχ=0 και ημχ=0
βασική βοηθητική πρόταση συνχ=0 και ημχ=0βασική βοηθητική πρόταση συνχ=0 και ημχ=0
βασική βοηθητική πρόταση συνχ=0 και ημχ=0Μάκης Χατζόπουλος
 
Διαγώνισμα επαναληπτικό στο Κεφάλαιο 2ο: Διαφορικός Λογισμός (edit 3)
Διαγώνισμα επαναληπτικό στο Κεφάλαιο 2ο: Διαφορικός Λογισμός (edit 3)Διαγώνισμα επαναληπτικό στο Κεφάλαιο 2ο: Διαφορικός Λογισμός (edit 3)
Διαγώνισμα επαναληπτικό στο Κεφάλαιο 2ο: Διαφορικός Λογισμός (edit 3)
Μάκης Χατζόπουλος
 
Διαγώνισμα κεφάλαιο 2ο Άλγεβρα Β΄ Λυκείου
Διαγώνισμα κεφάλαιο 2ο Άλγεβρα Β΄ ΛυκείουΔιαγώνισμα κεφάλαιο 2ο Άλγεβρα Β΄ Λυκείου
Διαγώνισμα κεφάλαιο 2ο Άλγεβρα Β΄ Λυκείου
Μάκης Χατζόπουλος
 
μαθηματικό τυπολόγιο
μαθηματικό τυπολόγιομαθηματικό τυπολόγιο
μαθηματικό τυπολόγιο
Christos Loizos
 
Μεγάλη συλλογή ασκήσεων στα ολοκληρώματα (678 λυμένες ασκησεις!!)
Μεγάλη συλλογή ασκήσεων στα ολοκληρώματα (678 λυμένες ασκησεις!!)Μεγάλη συλλογή ασκήσεων στα ολοκληρώματα (678 λυμένες ασκησεις!!)
Μεγάλη συλλογή ασκήσεων στα ολοκληρώματα (678 λυμένες ασκησεις!!)
Παύλος Τρύφων
 

What's hot (20)

Διαγωνισμα Αρσάκειο μέχρι αντίστροφη συνάρτηση
Διαγωνισμα Αρσάκειο μέχρι αντίστροφη συνάρτησηΔιαγωνισμα Αρσάκειο μέχρι αντίστροφη συνάρτηση
Διαγωνισμα Αρσάκειο μέχρι αντίστροφη συνάρτηση
 
ισα συνολα – υποσυνολα – πραξεις μεταξυ συνολων
ισα συνολα – υποσυνολα – πραξεις μεταξυ συνολωνισα συνολα – υποσυνολα – πραξεις μεταξυ συνολων
ισα συνολα – υποσυνολα – πραξεις μεταξυ συνολων
 
Introduction to SAC(Soft Actor-Critic)
Introduction to SAC(Soft Actor-Critic)Introduction to SAC(Soft Actor-Critic)
Introduction to SAC(Soft Actor-Critic)
 
Senario απλής και σύνθετης δομής επιλογής
Senario απλής και σύνθετης δομής επιλογής Senario απλής και σύνθετης δομής επιλογής
Senario απλής και σύνθετης δομής επιλογής
 
Κεφ. 2 Βασικές Έννοιες Αλγορίθμων
Κεφ. 2 Βασικές Έννοιες ΑλγορίθμωνΚεφ. 2 Βασικές Έννοιες Αλγορίθμων
Κεφ. 2 Βασικές Έννοιες Αλγορίθμων
 
104 ερωτήσεις θεωρίας
104 ερωτήσεις θεωρίας104 ερωτήσεις θεωρίας
104 ερωτήσεις θεωρίας
 
Επαναληπτικό διαγώνισμα μέχρι την αντίστροφη συνάρτηση - Αρσάκειο 2017 - 18
Επαναληπτικό διαγώνισμα μέχρι την αντίστροφη συνάρτηση - Αρσάκειο 2017 - 18Επαναληπτικό διαγώνισμα μέχρι την αντίστροφη συνάρτηση - Αρσάκειο 2017 - 18
Επαναληπτικό διαγώνισμα μέχρι την αντίστροφη συνάρτηση - Αρσάκειο 2017 - 18
 
Γραφικές παραστάσεις βασικών συναρτήσεων με βασικές ιδιότητες
Γραφικές παραστάσεις βασικών συναρτήσεων με βασικές ιδιότητεςΓραφικές παραστάσεις βασικών συναρτήσεων με βασικές ιδιότητες
Γραφικές παραστάσεις βασικών συναρτήσεων με βασικές ιδιότητες
 
Α 1.4 ΠΟΛΛΑΠΛΑΣΙΑΣΜΟΣ ΠΟΛΥΩΝΥΜΩΝ
Α 1.4 ΠΟΛΛΑΠΛΑΣΙΑΣΜΟΣ ΠΟΛΥΩΝΥΜΩΝΑ 1.4 ΠΟΛΛΑΠΛΑΣΙΑΣΜΟΣ ΠΟΛΥΩΝΥΜΩΝ
Α 1.4 ΠΟΛΛΑΠΛΑΣΙΑΣΜΟΣ ΠΟΛΥΩΝΥΜΩΝ
 
Πέντε ασκήσεις χαρακτηριστικές στο σχήμα Horner
Πέντε ασκήσεις χαρακτηριστικές στο σχήμα HornerΠέντε ασκήσεις χαρακτηριστικές στο σχήμα Horner
Πέντε ασκήσεις χαρακτηριστικές στο σχήμα Horner
 
ΒΙΟΓΡΑΦΙΚΟ ΣΗΜΕΙΩΜΑ
ΒΙΟΓΡΑΦΙΚΟ ΣΗΜΕΙΩΜΑΒΙΟΓΡΑΦΙΚΟ ΣΗΜΕΙΩΜΑ
ΒΙΟΓΡΑΦΙΚΟ ΣΗΜΕΙΩΜΑ
 
Chapter1 4.6
Chapter1 4.6Chapter1 4.6
Chapter1 4.6
 
το πληθος των ριζων Rolle
το πληθος των ριζων Rolleτο πληθος των ριζων Rolle
το πληθος των ριζων Rolle
 
PRML勉強会@長岡 第4章線形識別モデル
PRML勉強会@長岡 第4章線形識別モデルPRML勉強会@長岡 第4章線形識別モデル
PRML勉強会@長岡 第4章線形識別モデル
 
βασική βοηθητική πρόταση συνχ=0 και ημχ=0
βασική βοηθητική πρόταση συνχ=0 και ημχ=0βασική βοηθητική πρόταση συνχ=0 και ημχ=0
βασική βοηθητική πρόταση συνχ=0 και ημχ=0
 
Διαγώνισμα επαναληπτικό στο Κεφάλαιο 2ο: Διαφορικός Λογισμός (edit 3)
Διαγώνισμα επαναληπτικό στο Κεφάλαιο 2ο: Διαφορικός Λογισμός (edit 3)Διαγώνισμα επαναληπτικό στο Κεφάλαιο 2ο: Διαφορικός Λογισμός (edit 3)
Διαγώνισμα επαναληπτικό στο Κεφάλαιο 2ο: Διαφορικός Λογισμός (edit 3)
 
Διαγώνισμα κεφάλαιο 2ο Άλγεβρα Β΄ Λυκείου
Διαγώνισμα κεφάλαιο 2ο Άλγεβρα Β΄ ΛυκείουΔιαγώνισμα κεφάλαιο 2ο Άλγεβρα Β΄ Λυκείου
Διαγώνισμα κεφάλαιο 2ο Άλγεβρα Β΄ Λυκείου
 
μαθηματικό τυπολόγιο
μαθηματικό τυπολόγιομαθηματικό τυπολόγιο
μαθηματικό τυπολόγιο
 
Μεγάλη συλλογή ασκήσεων στα ολοκληρώματα (678 λυμένες ασκησεις!!)
Μεγάλη συλλογή ασκήσεων στα ολοκληρώματα (678 λυμένες ασκησεις!!)Μεγάλη συλλογή ασκήσεων στα ολοκληρώματα (678 λυμένες ασκησεις!!)
Μεγάλη συλλογή ασκήσεων στα ολοκληρώματα (678 λυμένες ασκησεις!!)
 
ΤΑΥΤΟΤΗΤΕΣ 1
ΤΑΥΤΟΤΗΤΕΣ 1ΤΑΥΤΟΤΗΤΕΣ 1
ΤΑΥΤΟΤΗΤΕΣ 1
 

Similar to Multi agent reinforcement learning for sequential social dilemmas

GAMING BOT USING REINFORCEMENT LEARNING
GAMING BOT USING REINFORCEMENT LEARNINGGAMING BOT USING REINFORCEMENT LEARNING
GAMING BOT USING REINFORCEMENT LEARNING
IRJET Journal
 
Multi-Agent Reinforcement Learning
Multi-Agent Reinforcement LearningMulti-Agent Reinforcement Learning
Multi-Agent Reinforcement Learning
Seolhokim
 
Deep Reinforcement Learning
Deep Reinforcement LearningDeep Reinforcement Learning
Deep Reinforcement Learning
Usman Qayyum
 
A Brief Survey of Reinforcement Learning
A Brief Survey of Reinforcement LearningA Brief Survey of Reinforcement Learning
A Brief Survey of Reinforcement Learning
Giancarlo Frison
 
Reinforcement learning
Reinforcement learning Reinforcement learning
Reinforcement learning
Chandra Meena
 
LAFS Game Design 1 - Structural Elements
LAFS Game Design 1 - Structural ElementsLAFS Game Design 1 - Structural Elements
LAFS Game Design 1 - Structural Elements
David Mullich
 
Game theory
Game theoryGame theory
Game theory
sivadarla
 
LAFS Game Design 10 - Fun and Accessability
LAFS Game Design 10 - Fun and AccessabilityLAFS Game Design 10 - Fun and Accessability
LAFS Game Design 10 - Fun and Accessability
David Mullich
 

Similar to Multi agent reinforcement learning for sequential social dilemmas (9)

GAMING BOT USING REINFORCEMENT LEARNING
GAMING BOT USING REINFORCEMENT LEARNINGGAMING BOT USING REINFORCEMENT LEARNING
GAMING BOT USING REINFORCEMENT LEARNING
 
Game Theory Assignment
Game Theory AssignmentGame Theory Assignment
Game Theory Assignment
 
Multi-Agent Reinforcement Learning
Multi-Agent Reinforcement LearningMulti-Agent Reinforcement Learning
Multi-Agent Reinforcement Learning
 
Deep Reinforcement Learning
Deep Reinforcement LearningDeep Reinforcement Learning
Deep Reinforcement Learning
 
A Brief Survey of Reinforcement Learning
A Brief Survey of Reinforcement LearningA Brief Survey of Reinforcement Learning
A Brief Survey of Reinforcement Learning
 
Reinforcement learning
Reinforcement learning Reinforcement learning
Reinforcement learning
 
LAFS Game Design 1 - Structural Elements
LAFS Game Design 1 - Structural ElementsLAFS Game Design 1 - Structural Elements
LAFS Game Design 1 - Structural Elements
 
Game theory
Game theoryGame theory
Game theory
 
LAFS Game Design 10 - Fun and Accessability
LAFS Game Design 10 - Fun and AccessabilityLAFS Game Design 10 - Fun and Accessability
LAFS Game Design 10 - Fun and Accessability
 

More from Dong Heon Cho

Forward-Forward Algorithm
Forward-Forward AlgorithmForward-Forward Algorithm
Forward-Forward Algorithm
Dong Heon Cho
 
What is Texture.pdf
What is Texture.pdfWhat is Texture.pdf
What is Texture.pdf
Dong Heon Cho
 
BADGE
BADGEBADGE
Neural Radiance Field
Neural Radiance FieldNeural Radiance Field
Neural Radiance Field
Dong Heon Cho
 
2020 > Self supervised learning
2020 > Self supervised learning2020 > Self supervised learning
2020 > Self supervised learning
Dong Heon Cho
 
All about that pooling
All about that poolingAll about that pooling
All about that pooling
Dong Heon Cho
 
Background elimination review
Background elimination reviewBackground elimination review
Background elimination review
Dong Heon Cho
 
Transparent Latent GAN
Transparent Latent GANTransparent Latent GAN
Transparent Latent GAN
Dong Heon Cho
 
Image matting atoc
Image matting atocImage matting atoc
Image matting atoc
Dong Heon Cho
 
Multi object Deep reinforcement learning
Multi object Deep reinforcement learningMulti object Deep reinforcement learning
Multi object Deep reinforcement learning
Dong Heon Cho
 
Multi agent System
Multi agent SystemMulti agent System
Multi agent System
Dong Heon Cho
 
Hybrid reward architecture
Hybrid reward architectureHybrid reward architecture
Hybrid reward architecture
Dong Heon Cho
 
Use Jupyter notebook guide in 5 minutes
Use Jupyter notebook guide in 5 minutesUse Jupyter notebook guide in 5 minutes
Use Jupyter notebook guide in 5 minutes
Dong Heon Cho
 
AlexNet and so on...
AlexNet and so on...AlexNet and so on...
AlexNet and so on...
Dong Heon Cho
 
Deep Learning AtoC with Image Perspective
Deep Learning AtoC with Image PerspectiveDeep Learning AtoC with Image Perspective
Deep Learning AtoC with Image Perspective
Dong Heon Cho
 
LOL win prediction
LOL win predictionLOL win prediction
LOL win prediction
Dong Heon Cho
 
How can we train with few data
How can we train with few dataHow can we train with few data
How can we train with few data
Dong Heon Cho
 
Domain adaptation gan
Domain adaptation ganDomain adaptation gan
Domain adaptation gan
Dong Heon Cho
 
Dense sparse-dense training for dnn and Other Models
Dense sparse-dense training for dnn and Other ModelsDense sparse-dense training for dnn and Other Models
Dense sparse-dense training for dnn and Other Models
Dong Heon Cho
 
Squeeeze models
Squeeeze modelsSqueeeze models
Squeeeze models
Dong Heon Cho
 

More from Dong Heon Cho (20)

Forward-Forward Algorithm
Forward-Forward AlgorithmForward-Forward Algorithm
Forward-Forward Algorithm
 
What is Texture.pdf
What is Texture.pdfWhat is Texture.pdf
What is Texture.pdf
 
BADGE
BADGEBADGE
BADGE
 
Neural Radiance Field
Neural Radiance FieldNeural Radiance Field
Neural Radiance Field
 
2020 > Self supervised learning
2020 > Self supervised learning2020 > Self supervised learning
2020 > Self supervised learning
 
All about that pooling
All about that poolingAll about that pooling
All about that pooling
 
Background elimination review
Background elimination reviewBackground elimination review
Background elimination review
 
Transparent Latent GAN
Transparent Latent GANTransparent Latent GAN
Transparent Latent GAN
 
Image matting atoc
Image matting atocImage matting atoc
Image matting atoc
 
Multi object Deep reinforcement learning
Multi object Deep reinforcement learningMulti object Deep reinforcement learning
Multi object Deep reinforcement learning
 
Multi agent System
Multi agent SystemMulti agent System
Multi agent System
 
Hybrid reward architecture
Hybrid reward architectureHybrid reward architecture
Hybrid reward architecture
 
Use Jupyter notebook guide in 5 minutes
Use Jupyter notebook guide in 5 minutesUse Jupyter notebook guide in 5 minutes
Use Jupyter notebook guide in 5 minutes
 
AlexNet and so on...
AlexNet and so on...AlexNet and so on...
AlexNet and so on...
 
Deep Learning AtoC with Image Perspective
Deep Learning AtoC with Image PerspectiveDeep Learning AtoC with Image Perspective
Deep Learning AtoC with Image Perspective
 
LOL win prediction
LOL win predictionLOL win prediction
LOL win prediction
 
How can we train with few data
How can we train with few dataHow can we train with few data
How can we train with few data
 
Domain adaptation gan
Domain adaptation ganDomain adaptation gan
Domain adaptation gan
 
Dense sparse-dense training for dnn and Other Models
Dense sparse-dense training for dnn and Other ModelsDense sparse-dense training for dnn and Other Models
Dense sparse-dense training for dnn and Other Models
 
Squeeeze models
Squeeeze modelsSqueeeze models
Squeeeze models
 

Recently uploaded

一比一原版(QU毕业证)皇后大学毕业证成绩单
一比一原版(QU毕业证)皇后大学毕业证成绩单一比一原版(QU毕业证)皇后大学毕业证成绩单
一比一原版(QU毕业证)皇后大学毕业证成绩单
enxupq
 
SOCRadar Germany 2024 Threat Landscape Report
SOCRadar Germany 2024 Threat Landscape ReportSOCRadar Germany 2024 Threat Landscape Report
SOCRadar Germany 2024 Threat Landscape Report
SOCRadar
 
Criminal IP - Threat Hunting Webinar.pdf
Criminal IP - Threat Hunting Webinar.pdfCriminal IP - Threat Hunting Webinar.pdf
Criminal IP - Threat Hunting Webinar.pdf
Criminal IP
 
Adjusting primitives for graph : SHORT REPORT / NOTES
Adjusting primitives for graph : SHORT REPORT / NOTESAdjusting primitives for graph : SHORT REPORT / NOTES
Adjusting primitives for graph : SHORT REPORT / NOTES
Subhajit Sahu
 
一比一原版(UPenn毕业证)宾夕法尼亚大学毕业证成绩单
一比一原版(UPenn毕业证)宾夕法尼亚大学毕业证成绩单一比一原版(UPenn毕业证)宾夕法尼亚大学毕业证成绩单
一比一原版(UPenn毕业证)宾夕法尼亚大学毕业证成绩单
ewymefz
 
一比一原版(TWU毕业证)西三一大学毕业证成绩单
一比一原版(TWU毕业证)西三一大学毕业证成绩单一比一原版(TWU毕业证)西三一大学毕业证成绩单
一比一原版(TWU毕业证)西三一大学毕业证成绩单
ocavb
 
一比一原版(BU毕业证)波士顿大学毕业证成绩单
一比一原版(BU毕业证)波士顿大学毕业证成绩单一比一原版(BU毕业证)波士顿大学毕业证成绩单
一比一原版(BU毕业证)波士顿大学毕业证成绩单
ewymefz
 
一比一原版(UIUC毕业证)伊利诺伊大学|厄巴纳-香槟分校毕业证如何办理
一比一原版(UIUC毕业证)伊利诺伊大学|厄巴纳-香槟分校毕业证如何办理一比一原版(UIUC毕业证)伊利诺伊大学|厄巴纳-香槟分校毕业证如何办理
一比一原版(UIUC毕业证)伊利诺伊大学|厄巴纳-香槟分校毕业证如何办理
ahzuo
 
Ch03-Managing the Object-Oriented Information Systems Project a.pdf
Ch03-Managing the Object-Oriented Information Systems Project a.pdfCh03-Managing the Object-Oriented Information Systems Project a.pdf
Ch03-Managing the Object-Oriented Information Systems Project a.pdf
haila53
 
一比一原版(ArtEZ毕业证)ArtEZ艺术学院毕业证成绩单
一比一原版(ArtEZ毕业证)ArtEZ艺术学院毕业证成绩单一比一原版(ArtEZ毕业证)ArtEZ艺术学院毕业证成绩单
一比一原版(ArtEZ毕业证)ArtEZ艺术学院毕业证成绩单
vcaxypu
 
哪里卖(usq毕业证书)南昆士兰大学毕业证研究生文凭证书托福证书原版一模一样
哪里卖(usq毕业证书)南昆士兰大学毕业证研究生文凭证书托福证书原版一模一样哪里卖(usq毕业证书)南昆士兰大学毕业证研究生文凭证书托福证书原版一模一样
哪里卖(usq毕业证书)南昆士兰大学毕业证研究生文凭证书托福证书原版一模一样
axoqas
 
一比一原版(CU毕业证)卡尔顿大学毕业证成绩单
一比一原版(CU毕业证)卡尔顿大学毕业证成绩单一比一原版(CU毕业证)卡尔顿大学毕业证成绩单
一比一原版(CU毕业证)卡尔顿大学毕业证成绩单
yhkoc
 
做(mqu毕业证书)麦考瑞大学毕业证硕士文凭证书学费发票原版一模一样
做(mqu毕业证书)麦考瑞大学毕业证硕士文凭证书学费发票原版一模一样做(mqu毕业证书)麦考瑞大学毕业证硕士文凭证书学费发票原版一模一样
做(mqu毕业证书)麦考瑞大学毕业证硕士文凭证书学费发票原版一模一样
axoqas
 
Machine learning and optimization techniques for electrical drives.pptx
Machine learning and optimization techniques for electrical drives.pptxMachine learning and optimization techniques for electrical drives.pptx
Machine learning and optimization techniques for electrical drives.pptx
balafet
 
standardisation of garbhpala offhgfffghh
standardisation of garbhpala offhgfffghhstandardisation of garbhpala offhgfffghh
standardisation of garbhpala offhgfffghh
ArpitMalhotra16
 
一比一原版(CBU毕业证)卡普顿大学毕业证成绩单
一比一原版(CBU毕业证)卡普顿大学毕业证成绩单一比一原版(CBU毕业证)卡普顿大学毕业证成绩单
一比一原版(CBU毕业证)卡普顿大学毕业证成绩单
nscud
 
Algorithmic optimizations for Dynamic Levelwise PageRank (from STICD) : SHORT...
Algorithmic optimizations for Dynamic Levelwise PageRank (from STICD) : SHORT...Algorithmic optimizations for Dynamic Levelwise PageRank (from STICD) : SHORT...
Algorithmic optimizations for Dynamic Levelwise PageRank (from STICD) : SHORT...
Subhajit Sahu
 
Empowering Data Analytics Ecosystem.pptx
Empowering Data Analytics Ecosystem.pptxEmpowering Data Analytics Ecosystem.pptx
Empowering Data Analytics Ecosystem.pptx
benishzehra469
 
Best best suvichar in gujarati english meaning of this sentence as Silk road ...
Best best suvichar in gujarati english meaning of this sentence as Silk road ...Best best suvichar in gujarati english meaning of this sentence as Silk road ...
Best best suvichar in gujarati english meaning of this sentence as Silk road ...
AbhimanyuSinha9
 
一比一原版(UofS毕业证书)萨省大学毕业证如何办理
一比一原版(UofS毕业证书)萨省大学毕业证如何办理一比一原版(UofS毕业证书)萨省大学毕业证如何办理
一比一原版(UofS毕业证书)萨省大学毕业证如何办理
v3tuleee
 

Recently uploaded (20)

一比一原版(QU毕业证)皇后大学毕业证成绩单
一比一原版(QU毕业证)皇后大学毕业证成绩单一比一原版(QU毕业证)皇后大学毕业证成绩单
一比一原版(QU毕业证)皇后大学毕业证成绩单
 
SOCRadar Germany 2024 Threat Landscape Report
SOCRadar Germany 2024 Threat Landscape ReportSOCRadar Germany 2024 Threat Landscape Report
SOCRadar Germany 2024 Threat Landscape Report
 
Criminal IP - Threat Hunting Webinar.pdf
Criminal IP - Threat Hunting Webinar.pdfCriminal IP - Threat Hunting Webinar.pdf
Criminal IP - Threat Hunting Webinar.pdf
 
Adjusting primitives for graph : SHORT REPORT / NOTES
Adjusting primitives for graph : SHORT REPORT / NOTESAdjusting primitives for graph : SHORT REPORT / NOTES
Adjusting primitives for graph : SHORT REPORT / NOTES
 
一比一原版(UPenn毕业证)宾夕法尼亚大学毕业证成绩单
一比一原版(UPenn毕业证)宾夕法尼亚大学毕业证成绩单一比一原版(UPenn毕业证)宾夕法尼亚大学毕业证成绩单
一比一原版(UPenn毕业证)宾夕法尼亚大学毕业证成绩单
 
一比一原版(TWU毕业证)西三一大学毕业证成绩单
一比一原版(TWU毕业证)西三一大学毕业证成绩单一比一原版(TWU毕业证)西三一大学毕业证成绩单
一比一原版(TWU毕业证)西三一大学毕业证成绩单
 
一比一原版(BU毕业证)波士顿大学毕业证成绩单
一比一原版(BU毕业证)波士顿大学毕业证成绩单一比一原版(BU毕业证)波士顿大学毕业证成绩单
一比一原版(BU毕业证)波士顿大学毕业证成绩单
 
一比一原版(UIUC毕业证)伊利诺伊大学|厄巴纳-香槟分校毕业证如何办理
一比一原版(UIUC毕业证)伊利诺伊大学|厄巴纳-香槟分校毕业证如何办理一比一原版(UIUC毕业证)伊利诺伊大学|厄巴纳-香槟分校毕业证如何办理
一比一原版(UIUC毕业证)伊利诺伊大学|厄巴纳-香槟分校毕业证如何办理
 
Ch03-Managing the Object-Oriented Information Systems Project a.pdf
Ch03-Managing the Object-Oriented Information Systems Project a.pdfCh03-Managing the Object-Oriented Information Systems Project a.pdf
Ch03-Managing the Object-Oriented Information Systems Project a.pdf
 
一比一原版(ArtEZ毕业证)ArtEZ艺术学院毕业证成绩单
一比一原版(ArtEZ毕业证)ArtEZ艺术学院毕业证成绩单一比一原版(ArtEZ毕业证)ArtEZ艺术学院毕业证成绩单
一比一原版(ArtEZ毕业证)ArtEZ艺术学院毕业证成绩单
 
哪里卖(usq毕业证书)南昆士兰大学毕业证研究生文凭证书托福证书原版一模一样
哪里卖(usq毕业证书)南昆士兰大学毕业证研究生文凭证书托福证书原版一模一样哪里卖(usq毕业证书)南昆士兰大学毕业证研究生文凭证书托福证书原版一模一样
哪里卖(usq毕业证书)南昆士兰大学毕业证研究生文凭证书托福证书原版一模一样
 
一比一原版(CU毕业证)卡尔顿大学毕业证成绩单
一比一原版(CU毕业证)卡尔顿大学毕业证成绩单一比一原版(CU毕业证)卡尔顿大学毕业证成绩单
一比一原版(CU毕业证)卡尔顿大学毕业证成绩单
 
做(mqu毕业证书)麦考瑞大学毕业证硕士文凭证书学费发票原版一模一样
做(mqu毕业证书)麦考瑞大学毕业证硕士文凭证书学费发票原版一模一样做(mqu毕业证书)麦考瑞大学毕业证硕士文凭证书学费发票原版一模一样
做(mqu毕业证书)麦考瑞大学毕业证硕士文凭证书学费发票原版一模一样
 
Machine learning and optimization techniques for electrical drives.pptx
Machine learning and optimization techniques for electrical drives.pptxMachine learning and optimization techniques for electrical drives.pptx
Machine learning and optimization techniques for electrical drives.pptx
 
standardisation of garbhpala offhgfffghh
standardisation of garbhpala offhgfffghhstandardisation of garbhpala offhgfffghh
standardisation of garbhpala offhgfffghh
 
一比一原版(CBU毕业证)卡普顿大学毕业证成绩单
一比一原版(CBU毕业证)卡普顿大学毕业证成绩单一比一原版(CBU毕业证)卡普顿大学毕业证成绩单
一比一原版(CBU毕业证)卡普顿大学毕业证成绩单
 
Algorithmic optimizations for Dynamic Levelwise PageRank (from STICD) : SHORT...
Algorithmic optimizations for Dynamic Levelwise PageRank (from STICD) : SHORT...Algorithmic optimizations for Dynamic Levelwise PageRank (from STICD) : SHORT...
Algorithmic optimizations for Dynamic Levelwise PageRank (from STICD) : SHORT...
 
Empowering Data Analytics Ecosystem.pptx
Empowering Data Analytics Ecosystem.pptxEmpowering Data Analytics Ecosystem.pptx
Empowering Data Analytics Ecosystem.pptx
 
Best best suvichar in gujarati english meaning of this sentence as Silk road ...
Best best suvichar in gujarati english meaning of this sentence as Silk road ...Best best suvichar in gujarati english meaning of this sentence as Silk road ...
Best best suvichar in gujarati english meaning of this sentence as Silk road ...
 
一比一原版(UofS毕业证书)萨省大学毕业证如何办理
一比一原版(UofS毕业证书)萨省大学毕业证如何办理一比一原版(UofS毕业证书)萨省大学毕业证如何办理
一比一原版(UofS毕业证书)萨省大学毕业证如何办理
 

Multi agent reinforcement learning for sequential social dilemmas

  • 1. Multi-agent RL in Sequential Social Dilemmas Paper Review
  • 2. MARL in SSD • Multi Agent Reinforcement Learning • Sequential Social Dilemmas => Understanding Agent Cooperation => In sequential situation ( mixed incentive sturcutre of matrix game social dilemma ) learn policies.
  • 4. Social Dilemma • A social dilemma is a situation in which an individual profits from selfishness unless everyone chooses the selfish alternative, in which case the whole group loses => Represent with Matrix game
  • 5. Matrix Game – prisoner’s dilemma Nash Equilibrium This is Best Choice.. in global perspective Betrayal Cooperate Matrix Game Social Dilemma == MGSD Rational agent choice this ( Think reward is - )
  • 6. MGSD ignores… 1. In real world’s social dilemmas are temporally extended 2. Cooperation and defection are labels that apply to polices implementing strategic decision 3. Cooperativeness may be a graded quantity 4. Decision to cooperate or defect occur only quasi-simultaneously since some information about what player 2 is starting to do can inform player 1’s decision and vice versa 5. Decision must be made despite only having partial information about the state of the world and the activities of the other players
  • 7. Sequential Social Dilemma SSD = Markov Games + Matrix Game Social Dilemma
  • 8. SSD – Markov Games two-player partially observable Markov game : M => O : S x {1,2} # O = { o_i | s, o_i } Transition Function T : S x A_1 x A_2 -> delta(S) ( discrete probability distributions ) Reward Function r_i : S x A1 x A2 Policy π : O_i -> delta(A_i) == Find MGSD with Reinforcement Learning Value-state function
  • 9. SSD – Definition of SSD Sequential Social Dilemma Empirical payoff matrix Markov game에서 observation이 변함에 따라 policy가 변화
  • 10. Learning Algorithm == Deep Multiagent Reinforcement Learning Use Deep Q-Network Uniform Dist.
  • 11. Simulation Method Game : 2D grid-world Observation : 3( RGB ) x 15(forehead) x 10(side) Action : 8 ( arrow keys + rotate left + rotate right + use beam + stand ) Episode : 1000 step NN : two Hidden layer – 32 unit + relu activation 8 output Policy : e-greedy ( decrease e 1.0 to 0.1 )
  • 12. Result – Gathering Reward가 없지만… laser로 other agent를 잠깐 없앰 먹을게 (초록) 많으면 공존하면서 reward를 얻고, 적으면 서로 공격하기 시작함
  • 13. Result – Gathering Touch Green : reward +1 ( green removed temporally ) Beam to other player : (tagging) hit twice, remove opponent from game N_tagged frames Apple respawns after N_apple frames => Defecting Policy == aggressive ( use beam ) Coopertive Policy == not seek to tag the other player https://www.youtube.com/watch?v=F97lqqpcqsM
  • 14. Result – Gathering *After training for 4- million steps for each option Conflict cost Abundance Highly Agressive Low Agressive
  • 15. RL to SSD 1. Train Policies at Different Game 2. Extract trained Policies from 1. 3. Calculate MGSD 4. Repeat 2-3 Until Converge
  • 16. Gathering : DRL to SSD Prisoner Dilemma or Non-SSD : ( NE is Global Optimal )
  • 18. Wolfpack r_team : reward when touch prey same time radius : capture radius ( collision size ) == difficulty of capture
  • 20. Material Link • https://arxiv.org/pdf/1702.03037.pdf • https://deepmind.com/blog/understanding-agent- cooperation/