ゲームバランス調整補助のための強化学習の効率化

Copyright © GREE, Inc. All Rights Reserved.
ゲームバランス調整補助のための
強化学習の効率化
グリー株式会社開発本部
辻本貴昭

• 継続的なコンテンツ追加が必要
• バランス調整作業に工数を費やしている
• パラメータ変更
• バランス確認のためのテストプレイ
• AIによるテストプレイを利用した事例が存在
背景
2
強化学習によるテストプレイAIで効率化

課題
3
• 強化学習には膨大な時間と計算リソースが必要
• コンテンツのリリース間隔が短い
強化学習を開発サイクルに組み込めない

Deep Reinforcement Learning with a Natural Language
Action Space He et al., 2016
ゲームの強化学習効率化に関する先行研究
4
• テキストゲームの強化学習効率化
• 状態が自然言語で表される
• 行動を自然言語で入力する
• Deep Reinforcement Relevance Network (DRRN)
• 行動を個別に評価
• 状態と行動をそれぞれ埋め込む
あなたは川のそばにいます
> 南へ行く
川は5cm程の隙間に流れ込んでいます
> 隙間へ行く
隙間は狭すぎて入れません

DRRN
DRRNの行動の個別評価
5
DQN
行動を一括評価行動を個別に評価
State Act1 … Actn
VAct1
… VActn
価値関数
…
価値関数
VAct1
State Act1
価値関数
VActn
State Actn
行動の個別評価によって選択肢数の変化に対応

• テキストゲームの特徴
• 状態を表す文章は長く複雑
• 行動を表す文章は短く単純
• 状態と行動それぞれを埋め込む
• 強化学習と同時に埋め込みを学習
• 2つの埋め込み表現の関連度を評価
DRRNの行動の埋め込み
6
State
h1
state
h2
state
Act1
h1
act
h2
act
Relevance1

目的・提案手法
7
目的
• DRRNに基づくターン制コマンドバトルの強化学習効率化
• 行動が表形式のデータで表現される
• ターンごとに行動を選択する
提案手法
1. マスタデータを用いた行動の埋め込み
2. 埋め込んだ行動を用いた強化学習

マスタデータ
行動の埋め込み
8
技威力命中率物理水炎雷
斬撃 20 90% True False False False
水魔法 30 60% False True False False
0.3 0.6 0.9 0.1
0.5 0.4 0.1 0.1
AutoEncoder

DRRN
行動の評価
9
提案手法
h1
h2
Value1
State (Emb)Act1
強化学習中に埋め込み獲得埋め込まれた行動を入力
State
h1
state
h2
state
Act1
h1
act
h2
act
Relevance1
… …

比較手法
実験設定
10
埋め込み表現なし埋め込み表現あり
行動の一括評価 DQN AE
行動の個別評価 PA-DQN AE+PA-DQN
実験方法
• Pokémon Showdown
• 100ステップの学習ごとに100回の対戦で評価

• 2人対戦ターン制コマンドバトル
• 6体のポケモンでチームを構成
• ターン毎に行動を1つ選択する
• 行動の選択肢は最大9個
• 相手ポケモンの体力をすべて0にすると勝利
Pokémon Showdown
11

実験結果
12
一括
個別

実験結果
13
一括
個別
性能向上開始

実験結果
14
埋め込みによって学習初期の学習効率が向上

実験結果
15
行動を埋め込むと最終的な性能は劣る

考察
• 行動の個別評価による効率化
• 状態の多様性が低くなる
• 行動の純粋な価値を評価可能
• 行動の埋め込みによる性能低下
• 重要な特徴が無視される可能性
課題
• ドメイン知識を活用した埋め込み
• 複数のキャラクタの行動を選択するゲームへ適用
考察・課題
16

ゲームバランス調整補助のための強化学習の効率化

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from gree_tech

More from gree_tech (20)

ゲームバランス調整補助のための強化学習の効率化