[RLKorea] Unity ML-agents 발표

Contents
2
1. ML-agents Team
2. Unity ML-agents
3. Tutorial
4. Multi-agent Env.

ML-agents Team
3
민규식 정규석 신명재 이현호 윤성훈 조동헌

ML-agents Team
4
Goal
Tutorial Environment

ML-agents Team
5
Tutorial
 Unity ML-agent 출시 (2017. 09. 17)
 다양한 강화학습 환경을 직접 만들어 볼 수 있어요!
 왠지 생각만큼 많이 사용되고 있지는 않은 듯…?
Tutorial을 만들자!!

ML-agents Team
6
Environment
 강화학습에도 다양한 분야가 있습니다!
 하지만 일부 분야들은 잘 구성된 환경이 없어서 어려움이 많습니다.
 그런 분야 중 하나에 대한 환경 세트를 제작하려고 합니다.
Multi-agent RL

Unity ML-agents
8
Reinforcement Learning

Unity ML-agents
9
강화학습을 하는 사람들의 고민 강화학습을 테스트할 환경

Unity ML-agents
10
Unity
 3D 및 2D 비디오 게임의 개발 환경을 제공하는 게임 엔진
 3D 애니메이션과 건축 시각화, 가상현실(VR) 등 인터랙티브 콘텐츠 제작
 게임 엔진 시장의 45% 이상 차지, 등록 개발자 수 500만 명 이상

Unity ML-agents
12
Unity ML-agents
 유니티 환경 내에 강화학습을 위한 설정을 할 수 있음
 Python과 Unity 환경 간 통신 가능 (state, action reward)
 Agent, Brain, Academy로 구성
 Agent: Agent에 대한 설정, Observation, reward, done 설정
 Brain: Brain을 통해 agent에 대한 action 설정
 Player: 직접 사람이 플레이 할 수 있는 brain 설정
 Heuristic: 규칙을 통해 action을 선택하는 brain 설정
 Internal: 학습된 모델을 통해 Unity 내부에서 환경을 플레이하는 brain 설정
 External: 외부 Python 코드와 Unity 환경 간 통신을 할 수 있게 하는 설정
 Academy: Brain을 통합 관리하며 환경에 대한 다양한 설정 가능

Unity ML-agents
13
Unity ML-agents

Unity ML-agents
14
Unity ML-agents

Unity ML-agents
15
Unity ML-agents
VS: Single Agent
: Multi-agents
: Adversarial Agents
: Imitation Learning

Unity ML-agents
16
Unity ML-agents
Agent
Brain 설정Agent 코드 Academy 설정
: Training
: Heuristic
: Player

Unity ML-agents
20
- Unity ML-agents 는 강화학습에서만 사용할 수 있을까?

Unity ML-agents
21
- Unity ML-agents 는 강화학습에서만 사용할 수 있을까?
- 서로 다른 특성을 가진 공들의 움직임에 대한 데이터가 필요!
- 실제로 공을 굴려볼 수는 없고… 충돌 등 물리적인 부분에 대한 구현도 어렵고…
- 시뮬레이션을 통해 데이터 취득 필요
- C# 으로 데이터를 취득하지는 못하겠고…
- ML agents 를 이용하여 환경 제작 -> 공들의 정보를 python으로 보내고 데이터를 만들자
Unity ML-agents Python .mat .pickle

Unity ML-agents
22
인공지능(RL) 게임 개발

Unity ML-agents
23
왜 안 해요….?
1. 게임 개발 어렵지 않나요…? 해본 적이 없어요…
2. 언어가 C# 이라는데… 개발 못해요…

Tutorial
31
Discrete Action Continuous Action Adversarial Agents
Curriculum Learning Imitation Learning Multi-agents

Tutorial
32
Sokoban
 ML-agents의 example 환경인 GridWorld 환경을 수정하여
Sokoban으로 변경
 Discrete action 환경
 파란 네모가 초록색 박스를 밀어서 +에 넣는 것이 목표
 박스가 x에 들어가거나 agent가 +나 x에 들어가면 감점
 resetParameter를 통해 게임판 사이즈, +의 개수, 박스의 개수,
x의 개수 조절 가능
 DQN(Deep Q Network)을 이용하여 학습 수행
 https://youtu.be/jlqDBtqgj0c
정규석 윤성훈

Tutorial
34
Drone
 Unity Asset store에서 받은 드론 모델을 이용하여 제작
 Continuous action 환경
 드론이 하얀 구체까지 날아가는 것이 목표
 상하좌우, 전후 방향으로 이동
 Deep Deterministic Policy Gradient (DDPG) 알고리즘을 통해 학습
 네트워크에 노이즈를 섞는 방식으로 exploration 수행
 https://youtu.be/iTFrt-3T0-k
이현호 조동헌

Tutorial
36
Pong
 두개의 agents가 서로 대결하는 환경
 각각의 agent에 brain을 설정하여 학습 수행
 각 막대가 공을 받아치는 것이 목표
 공을 받아치면 +0.5, 공을 놓치면 -1, 상대방이 공을 놓
피면 +1의 reward를 받음
 각각의 알고리즘을 DQN으로 학습 수행
 https://youtu.be/gXHtDkCktfY
민규식 신명재

Tutorial
38
Sokoban Curriculum
 소코반 환경을 변형하여 curriculum 환경으로 제작
 학습을 진행할수록 게임판의 크기를 늘리고 +의 수와 박스의 수
도 함께 늘리는 방식으로 난이도 향상
 level-0 : "gridSize": 4, "numGoals": 1, "numBoxes": 1, "numObstacles": 1
 DQN 알고리즘을 통해 학습
 https://youtu.be/QJuzsVReymA
조동헌윤성훈

Tutorial
40
Dogde 환경
 파란 네모가 상하좌우로 움직이면서 오렌지색 공을 피하는 환경
 사람의 플레이를 recording demonstration 코드를 통해 기록
 State, action, reward, done 정보를 기록하여 .demo 파일로 저장
 Python 상에서 해당 정보를 로드 후 Supervised learning 기반 학습 수행
 Action 결과를 softmax를 통해 확률로 변환 후 확률적으로 action 선택
 https://youtu.be/uv_J4z7gi70
이현호 정규석

Tutorial
42
TwoLeg agent 환경
 각각의 다리가 서로 다른 agents
 각 다리가 협력하여 앞으로 달리는 것이 목표
 Agent의 state는 각 다리 부분과 body의 위치, 속도, 각속도
 각 관절의 torque를 action으로 설정
 학습 수행 중… ㅠ.ㅠ
민규식 신명재

Tutorial
44
환경 제작 알고리즘

Tutorial
45
https://github.com/reinforcement-learning-kr/Unity_ML_Agents

Unity ML-agents
47
Multi-agents

Multi-agents
48
Multi-agents
 Multi-agents RL에 대한 연구가 활발하게 이루어지는 중!
 하지만 Multi-agents 알고리즘을 테스트 할 수 있는 환경은 아직 부족한 상황
 Multi-agents 환경을 Unity ML-agents로 개발 진행!
 총 6개 이상의 환경 제작 목표 -> 현재 2개 완성…
 Predator-Prey 환경
 Zombie Defense 환경
 Beehive환경 (제작 중)
 To be continued…
 더 많은 환경들을 제작하여 Github에 업데이트 및 정리 예정

Multi-agents
49
Predator-Prey
 다수의 갈색 사자가 하나의 하얀 양을 잡는 환경
 사자와 양 모두 학습 가능
 State는 현재 각 agent의 위치를 따로 받음 (2개), action은 상하좌우
 사자의 경우 양을 잡으면 +1, 벽으로 이동하면 -0.1, 한번 이동하는 경우 -0.01의
reward를 받음
 양의 경우 한번 이동하면 +0.01, 벽으로 이동하면 -0.1, 사자에게 잡히면 -1의
reward를 받음
 사자가 잘 협력해야 양을 잡을 수 있는 환경
 resetParameter를 통해 사자의 수를 2-6까지 변경 가능

Multi-agents
51
Zombie Defense
 Agent들이 몰려오는 좀비를 총으로 쏴서 막는 환경
 각 agent가 할당된 좀비만 공격하여 죽일 수 있음 (협력 필요!)
 State는 각 에이전트의 위치와 종류, 그리고 20마리 좀비의 x, y
위치와 좀비의 종류 -> 총 62개의 state
 Action: 왼쪽, 오른쪽, 총쏘기
 각 agent에 할당된 좀비를 맞추는 경우 +0.1, 할당되지 않은 좀비
를 맞추거나 총이 빗나가는 경우 -0.01, 좀비가 바리케이트에 도
달하는 경우 -5의 reward 받음
 Curriculum 방식을 통해 학습 수행 (속도, 스폰 시간)

Future Work
53
Github 정리 ML-agent 서적 작업

Thank You!
55
민규식 정규석 신명재 이현호 윤성훈 조동헌

[RLKorea] Unity ML-agents 발표

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to [RLKorea] Unity ML-agents 발표

Similar to [RLKorea] Unity ML-agents 발표 (20)

[RLKorea] Unity ML-agents 발표