SlideShare a Scribd company logo
1 of 17
Kyonggi Univ. AI Lab.
COMA(COUNTERFACTUAL MULTI-AGENT POLICY GRADIENTS)
2020.9.14
정규열
Artificial Intelligence Lab
Kyonggi Univiersity
Kyonggi Univ. AI Lab.
Index
 도입 배경
 제약조건
 IAC
 COMA
 코드 분석
Kyonggi Univ. AI Lab.
도입 배경
Kyonggi Univ. AI Lab.
도입 배경
 효과적인 협동(Joint - Action)을 위한 multi-agent 방법론이 필요하다
 팀 보상만 얻을 수 있는 환경이다.
 각 agent의 팀 보상에 대한 기여도를 알 수 없다.
 Agent 개인에게 보상을 부여한다.
 협동에서는 잘 작동하지 않는다.
 이기적으로 행동하는 경향이 있다.
팀 보상을 통하여 각 Agent의 기여도를 파악 하고자 함!
Kyonggi Univ. AI Lab.
제약조건
Kyonggi Univ. AI Lab.
제약조건
 모든 Agent는 partial-observation을 이용한다.
 각 Agent끼리 partial-observation정보를 공유
하지 않는다.
 보상 또한 각 agent의 개개인이 아닌 팀 보상으로
주어진다.
Kyonggi Univ. AI Lab.
IAC
Kyonggi Univ. AI Lab.
IAC
 IAC - Independent Actor-Critic
 각 agent마다 actor와 Critic이 할당된다.
 방법 1 : Critic의 가치함수(V) 와 TD에러에 따른 Gradient Ascent
 방법 2 : Critic의 행동 가치함수(Q)에 따른 Gradient Ascent
 방법 3 : Critic의 어드밴티지(Q - V)에 따른 Gradient Ascent
각 Agent들이 부분관측 정보를 이용하며 서로
소통하지 않기 때문에 큰 효과를 기대하기 어렵다.
소통을 허용했던 MAAC 기법은 어느정도 효과가 나왔다.
Kyonggi Univ. AI Lab.
COMA
Kyonggi Univ. AI Lab.
COMA
 다음 네 가지를 제안함.
 1, Centralised Critic을 도입
 전체 정보를 파악하기 위해 도입함
 state, Agent의 Observation, Policy를 모두 부여 받는다.
 2, Reward Shape을 도입함.
 각 Agent의 기여도를 파악 하고자 함
 3, 효과적인 Reward Shape을 위하여 counterfactual baseline을 도입함
 4, 신경망에 효율적인 적용을 위하여 critic representation 을 도입함.
Kyonggi Univ. AI Lab.
COMA
 전체 구조
Kyonggi Univ. AI Lab.
COMA
 Centralised Critic을 도입
 중앙에서 모든 정보를 받아 각 Agent의 기여도를 부여한다.
Advantage를 어떻게 산출할 것인가?
Kyonggi Univ. AI Lab.
COMA
 Reward Shape을 도입함.
 팀 보상에 대한 각 Agent의 기여도를 측정한다.
S : state
u : joint-action
a : agent
-a : other agents
c : default Action
이 방법은 고려해야하는 경우의 수가 너무 많아진다.
Kyonggi Univ. AI Lab.
COMA
 Counterfactual Baseline을 도입한다.
 Other agent의 행동은 고정하고 본인 행동에 따라 기여도를 평가함.
 그러나 신경망의 경우 이 또한 비 효율적이다.
 critic representation 도입한다.
 other agents를 network의 Input으로 이용한다.
Kyonggi Univ. AI Lab.
코드 분석
Kyonggi Univ. AI Lab.
코드 분석
 Agent의 코드
 구조
 https://github.com/jk96491/SMAC/blob/b965d6be900877ea331a406e805a14645d713bed/pysc2/modules/agents/rnn_agent.py
 Input 데이터 처리
 https://github.com/jk96491/SMAC/blob/b965d6be900877ea331a406e805a14645d713bed/pysc2/controllers/basic_controller.py
 학습
 https://github.com/jk96491/SMAC/blob/b965d6be900877ea331a406e805a14645d713bed/pysc2/learners/coma_learner.py
Kyonggi Univ. AI Lab.
코드 분석
 Critic의 코드
 구조
 https://github.com/jk96491/SMAC/blob/b965d6be900877ea331a406e805a14645d713bed/pysc2/modules/critics/coma.py#L6
 학습
 https://github.com/jk96491/SMAC/blob/b965d6be900877ea331a406e805a14645d713bed/pysc2/learners/coma_learner.py

More Related Content

What's hot

What's hot (20)

RLCode와 A3C 쉽고 깊게 이해하기
RLCode와 A3C 쉽고 깊게 이해하기RLCode와 A3C 쉽고 깊게 이해하기
RLCode와 A3C 쉽고 깊게 이해하기
 
알파고 해부하기 2부
알파고 해부하기 2부알파고 해부하기 2부
알파고 해부하기 2부
 
第四回 全日本CV勉強会スライド(MOTS: Multi-Object Tracking and Segmentation)
第四回 全日本CV勉強会スライド(MOTS: Multi-Object Tracking and Segmentation)第四回 全日本CV勉強会スライド(MOTS: Multi-Object Tracking and Segmentation)
第四回 全日本CV勉強会スライド(MOTS: Multi-Object Tracking and Segmentation)
 
[DL輪読会]Deep Reinforcement Learning that Matters
[DL輪読会]Deep Reinforcement Learning that Matters[DL輪読会]Deep Reinforcement Learning that Matters
[DL輪読会]Deep Reinforcement Learning that Matters
 
강화학습의 개요
강화학습의 개요강화학습의 개요
강화학습의 개요
 
【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】A Path Towards Autonomous Machine Intelligence【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】A Path Towards Autonomous Machine Intelligence
 
개인화 추천은 어디로 가고 있는가?
개인화 추천은 어디로 가고 있는가?개인화 추천은 어디로 가고 있는가?
개인화 추천은 어디로 가고 있는가?
 
[DL Hacks]Variational Approaches For Auto-Encoding Generative Adversarial Ne...
[DL Hacks]Variational Approaches For Auto-Encoding  Generative Adversarial Ne...[DL Hacks]Variational Approaches For Auto-Encoding  Generative Adversarial Ne...
[DL Hacks]Variational Approaches For Auto-Encoding Generative Adversarial Ne...
 
文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition
文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition
文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition
 
【論文紹介】 Spatial Temporal Graph Convolutional Networks for Skeleton-Based Acti...
【論文紹介】Spatial Temporal Graph Convolutional Networks for Skeleton-Based Acti...【論文紹介】Spatial Temporal Graph Convolutional Networks for Skeleton-Based Acti...
【論文紹介】 Spatial Temporal Graph Convolutional Networks for Skeleton-Based Acti...
 
OSS強化学習フレームワークの比較
OSS強化学習フレームワークの比較OSS強化学習フレームワークの比較
OSS強化学習フレームワークの比較
 
最近のDQN
最近のDQN最近のDQN
最近のDQN
 
協力ゲーム理論でXAI (説明可能なAI) を目指すSHAP (Shapley Additive exPlanation)
協力ゲーム理論でXAI (説明可能なAI) を目指すSHAP (Shapley Additive exPlanation)協力ゲーム理論でXAI (説明可能なAI) を目指すSHAP (Shapley Additive exPlanation)
協力ゲーム理論でXAI (説明可能なAI) を目指すSHAP (Shapley Additive exPlanation)
 
機械学習と深層学習入門
機械学習と深層学習入門機械学習と深層学習入門
機械学習と深層学習入門
 
20190804_icml_kyoto
20190804_icml_kyoto20190804_icml_kyoto
20190804_icml_kyoto
 
金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデル金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデル
 
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
 
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
 
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
 
인공지능 슈퍼마리오의 거의 모든 것( Pycon 2018 정원석)
인공지능 슈퍼마리오의 거의 모든 것( Pycon 2018 정원석)인공지능 슈퍼마리오의 거의 모든 것( Pycon 2018 정원석)
인공지능 슈퍼마리오의 거의 모든 것( Pycon 2018 정원석)
 

Similar to COMA(counterfactual multi-agent policy gradients)

마케팅인사이트 회사소개서
마케팅인사이트 회사소개서마케팅인사이트 회사소개서
마케팅인사이트 회사소개서
mktarcadia
 
다면평가의장단점
다면평가의장단점다면평가의장단점
다면평가의장단점
dongseonkim
 
Serverless로 이미지 크롤링 프로토타입 개발기::유호균::AWS Summit Seoul 2018
Serverless로 이미지 크롤링 프로토타입 개발기::유호균::AWS Summit Seoul 2018Serverless로 이미지 크롤링 프로토타입 개발기::유호균::AWS Summit Seoul 2018
Serverless로 이미지 크롤링 프로토타입 개발기::유호균::AWS Summit Seoul 2018
Amazon Web Services Korea
 
AWS 한국 공공부분 고객 사례 발표: 병원, 에듀테크, 대학, 학생 스타트업::박상준, 조현구,Timothy Lee, 유병훈, Peter...
AWS 한국 공공부분 고객 사례 발표: 병원, 에듀테크, 대학, 학생 스타트업::박상준, 조현구,Timothy Lee, 유병훈, Peter...AWS 한국 공공부분 고객 사례 발표: 병원, 에듀테크, 대학, 학생 스타트업::박상준, 조현구,Timothy Lee, 유병훈, Peter...
AWS 한국 공공부분 고객 사례 발표: 병원, 에듀테크, 대학, 학생 스타트업::박상준, 조현구,Timothy Lee, 유병훈, Peter...
Amazon Web Services Korea
 

Similar to COMA(counterfactual multi-agent policy gradients) (20)

[PAP] 실무자를 위한 인과추론 활용 : Best Practices
[PAP] 실무자를 위한 인과추론 활용 : Best Practices[PAP] 실무자를 위한 인과추론 활용 : Best Practices
[PAP] 실무자를 위한 인과추론 활용 : Best Practices
 
[팝콘 시즌1] 최보경 : 실무자를 위한 인과추론 활용 - Best Practices
[팝콘 시즌1] 최보경 : 실무자를 위한 인과추론 활용 - Best Practices[팝콘 시즌1] 최보경 : 실무자를 위한 인과추론 활용 - Best Practices
[팝콘 시즌1] 최보경 : 실무자를 위한 인과추론 활용 - Best Practices
 
마케팅인사이트 회사소개서
마케팅인사이트 회사소개서마케팅인사이트 회사소개서
마케팅인사이트 회사소개서
 
[Causal Inference Workshop 2022] Applications of Causal Inference in Product ...
[Causal Inference Workshop 2022] Applications of Causal Inference in Product ...[Causal Inference Workshop 2022] Applications of Causal Inference in Product ...
[Causal Inference Workshop 2022] Applications of Causal Inference in Product ...
 
MMORPG ABUSER DETECTION WITH SAGEMAKER (Krafton) - 안일호, Krafton :: AWS Summit...
MMORPG ABUSER DETECTION WITH SAGEMAKER (Krafton) - 안일호, Krafton :: AWS Summit...MMORPG ABUSER DETECTION WITH SAGEMAKER (Krafton) - 안일호, Krafton :: AWS Summit...
MMORPG ABUSER DETECTION WITH SAGEMAKER (Krafton) - 안일호, Krafton :: AWS Summit...
 
COMA
COMACOMA
COMA
 
[H3 2012] 스마트모바일 환경에서의 App.품질관리전략
[H3 2012] 스마트모바일 환경에서의 App.품질관리전략[H3 2012] 스마트모바일 환경에서의 App.품질관리전략
[H3 2012] 스마트모바일 환경에서의 App.품질관리전략
 
다면평가의장단점
다면평가의장단점다면평가의장단점
다면평가의장단점
 
Unity ml agent quick guide
Unity ml agent quick guideUnity ml agent quick guide
Unity ml agent quick guide
 
Trend report2 20170113
Trend report2 20170113Trend report2 20170113
Trend report2 20170113
 
DHS S&T MDTF Biometric Technology Rally
DHS S&T MDTF Biometric Technology RallyDHS S&T MDTF Biometric Technology Rally
DHS S&T MDTF Biometric Technology Rally
 
Serverless로 이미지 크롤링 프로토타입 개발기::유호균::AWS Summit Seoul 2018
Serverless로 이미지 크롤링 프로토타입 개발기::유호균::AWS Summit Seoul 2018Serverless로 이미지 크롤링 프로토타입 개발기::유호균::AWS Summit Seoul 2018
Serverless로 이미지 크롤링 프로토타입 개발기::유호균::AWS Summit Seoul 2018
 
Graph Database Meetup in Korea #8. Graph Database 5 Offerings_ DecisionTutor ...
Graph Database Meetup in Korea #8. Graph Database 5 Offerings_ DecisionTutor ...Graph Database Meetup in Korea #8. Graph Database 5 Offerings_ DecisionTutor ...
Graph Database Meetup in Korea #8. Graph Database 5 Offerings_ DecisionTutor ...
 
Android Test Recorder & Profiler 구축 이야기
Android  Test Recorder & Profiler 구축 이야기 Android  Test Recorder & Profiler 구축 이야기
Android Test Recorder & Profiler 구축 이야기
 
UI 정적분석툴 소개와 활용사례
UI 정적분석툴 소개와 활용사례UI 정적분석툴 소개와 활용사례
UI 정적분석툴 소개와 활용사례
 
sw 자산관리 모범사례
sw 자산관리 모범사례sw 자산관리 모범사례
sw 자산관리 모범사례
 
학교에서는 배울 수 없는 스타트업 엔지니어링 (연세대 특강)
학교에서는 배울 수 없는 스타트업 엔지니어링 (연세대 특강)학교에서는 배울 수 없는 스타트업 엔지니어링 (연세대 특강)
학교에서는 배울 수 없는 스타트업 엔지니어링 (연세대 특강)
 
AWS 한국 공공부분 고객 사례 발표: 병원, 에듀테크, 대학, 학생 스타트업::박상준, 조현구,Timothy Lee, 유병훈, Peter...
AWS 한국 공공부분 고객 사례 발표: 병원, 에듀테크, 대학, 학생 스타트업::박상준, 조현구,Timothy Lee, 유병훈, Peter...AWS 한국 공공부분 고객 사례 발표: 병원, 에듀테크, 대학, 학생 스타트업::박상준, 조현구,Timothy Lee, 유병훈, Peter...
AWS 한국 공공부분 고객 사례 발표: 병원, 에듀테크, 대학, 학생 스타트업::박상준, 조현구,Timothy Lee, 유병훈, Peter...
 
사용자분석 @코더스하이세미나
사용자분석 @코더스하이세미나사용자분석 @코더스하이세미나
사용자분석 @코더스하이세미나
 
team_analysts_Mom-sitter.pptx
team_analysts_Mom-sitter.pptxteam_analysts_Mom-sitter.pptx
team_analysts_Mom-sitter.pptx
 

More from KyuYeolJung (9)

Cpgan content-parsing generative
Cpgan   content-parsing generativeCpgan   content-parsing generative
Cpgan content-parsing generative
 
MARL based on role
MARL based on roleMARL based on role
MARL based on role
 
Style gan
Style ganStyle gan
Style gan
 
Rethinking attention with performers
Rethinking attention with performersRethinking attention with performers
Rethinking attention with performers
 
Attn-gan : fine-grained text to image generation
Attn-gan :  fine-grained text to image generationAttn-gan :  fine-grained text to image generation
Attn-gan : fine-grained text to image generation
 
Stochastic latent actor critic - deep reinforcement learning with a latent va...
Stochastic latent actor critic - deep reinforcement learning with a latent va...Stochastic latent actor critic - deep reinforcement learning with a latent va...
Stochastic latent actor critic - deep reinforcement learning with a latent va...
 
Language gans falling short
Language gans falling shortLanguage gans falling short
Language gans falling short
 
plug and play language models a simple approach to controlled text generation
plug and play language models a simple approach to controlled text generationplug and play language models a simple approach to controlled text generation
plug and play language models a simple approach to controlled text generation
 
TRPO(trust region policy optimization)
TRPO(trust region policy optimization)TRPO(trust region policy optimization)
TRPO(trust region policy optimization)
 

COMA(counterfactual multi-agent policy gradients)

  • 1. Kyonggi Univ. AI Lab. COMA(COUNTERFACTUAL MULTI-AGENT POLICY GRADIENTS) 2020.9.14 정규열 Artificial Intelligence Lab Kyonggi Univiersity
  • 2. Kyonggi Univ. AI Lab. Index  도입 배경  제약조건  IAC  COMA  코드 분석
  • 3. Kyonggi Univ. AI Lab. 도입 배경
  • 4. Kyonggi Univ. AI Lab. 도입 배경  효과적인 협동(Joint - Action)을 위한 multi-agent 방법론이 필요하다  팀 보상만 얻을 수 있는 환경이다.  각 agent의 팀 보상에 대한 기여도를 알 수 없다.  Agent 개인에게 보상을 부여한다.  협동에서는 잘 작동하지 않는다.  이기적으로 행동하는 경향이 있다. 팀 보상을 통하여 각 Agent의 기여도를 파악 하고자 함!
  • 5. Kyonggi Univ. AI Lab. 제약조건
  • 6. Kyonggi Univ. AI Lab. 제약조건  모든 Agent는 partial-observation을 이용한다.  각 Agent끼리 partial-observation정보를 공유 하지 않는다.  보상 또한 각 agent의 개개인이 아닌 팀 보상으로 주어진다.
  • 7. Kyonggi Univ. AI Lab. IAC
  • 8. Kyonggi Univ. AI Lab. IAC  IAC - Independent Actor-Critic  각 agent마다 actor와 Critic이 할당된다.  방법 1 : Critic의 가치함수(V) 와 TD에러에 따른 Gradient Ascent  방법 2 : Critic의 행동 가치함수(Q)에 따른 Gradient Ascent  방법 3 : Critic의 어드밴티지(Q - V)에 따른 Gradient Ascent 각 Agent들이 부분관측 정보를 이용하며 서로 소통하지 않기 때문에 큰 효과를 기대하기 어렵다. 소통을 허용했던 MAAC 기법은 어느정도 효과가 나왔다.
  • 9. Kyonggi Univ. AI Lab. COMA
  • 10. Kyonggi Univ. AI Lab. COMA  다음 네 가지를 제안함.  1, Centralised Critic을 도입  전체 정보를 파악하기 위해 도입함  state, Agent의 Observation, Policy를 모두 부여 받는다.  2, Reward Shape을 도입함.  각 Agent의 기여도를 파악 하고자 함  3, 효과적인 Reward Shape을 위하여 counterfactual baseline을 도입함  4, 신경망에 효율적인 적용을 위하여 critic representation 을 도입함.
  • 11. Kyonggi Univ. AI Lab. COMA  전체 구조
  • 12. Kyonggi Univ. AI Lab. COMA  Centralised Critic을 도입  중앙에서 모든 정보를 받아 각 Agent의 기여도를 부여한다. Advantage를 어떻게 산출할 것인가?
  • 13. Kyonggi Univ. AI Lab. COMA  Reward Shape을 도입함.  팀 보상에 대한 각 Agent의 기여도를 측정한다. S : state u : joint-action a : agent -a : other agents c : default Action 이 방법은 고려해야하는 경우의 수가 너무 많아진다.
  • 14. Kyonggi Univ. AI Lab. COMA  Counterfactual Baseline을 도입한다.  Other agent의 행동은 고정하고 본인 행동에 따라 기여도를 평가함.  그러나 신경망의 경우 이 또한 비 효율적이다.  critic representation 도입한다.  other agents를 network의 Input으로 이용한다.
  • 15. Kyonggi Univ. AI Lab. 코드 분석
  • 16. Kyonggi Univ. AI Lab. 코드 분석  Agent의 코드  구조  https://github.com/jk96491/SMAC/blob/b965d6be900877ea331a406e805a14645d713bed/pysc2/modules/agents/rnn_agent.py  Input 데이터 처리  https://github.com/jk96491/SMAC/blob/b965d6be900877ea331a406e805a14645d713bed/pysc2/controllers/basic_controller.py  학습  https://github.com/jk96491/SMAC/blob/b965d6be900877ea331a406e805a14645d713bed/pysc2/learners/coma_learner.py
  • 17. Kyonggi Univ. AI Lab. 코드 분석  Critic의 코드  구조  https://github.com/jk96491/SMAC/blob/b965d6be900877ea331a406e805a14645d713bed/pysc2/modules/critics/coma.py#L6  학습  https://github.com/jk96491/SMAC/blob/b965d6be900877ea331a406e805a14645d713bed/pysc2/learners/coma_learner.py

Editor's Notes

  1. Decentralised – 각 Agent들의 행동 Centralised - Decentralised 행동을 모아 협동 플레이 함