音楽ゲームのプレイヤAIにおける人間らしく振る舞う強化学習手法の提案

松江工業高等専門学校
坂本洸橋本剛
第45回ゲーム情報学研究会

R2D2(Recurrent Replay Distributed DQN )
強化学習アルゴリズム(DQN + LSTM + Ape-x)
ゲーム機Atari2600の52/57タイトルで人間を
上回るスコアを記録 [Steven Kapturowski et al., 2018]
space invaders break out
[Atari 2600 より引用]

Mario AI Competition
人には真似できないようなスーパープレイ

機械学習を用いたゲームAI
強さを追求動きが機械的
例 ◆最善の行動を取り続ける
◆人間がするとは思えない一手を出したり
小刻みに動く

◆人間らしい FPS AI (大会も開催) [Mihai Polceanu, 2013]
◆接待将棋を行うAI [仲道ら, 2014]
◆人間らしいスーパーマリオAI [藤井ら, 2014]
botprize competition
課題の解決に向けて
人間らしい振る舞いを行うゲームAI の研究が行われている
[2K BotPrize 2010より引用]

目的
◆ 手加減や焦りなどの人間らしい振る舞い
プレイヤを楽しませたりプレイヤの
ライバルになれるようなAI
◆ AIを仮想的なプレイヤとして設定
ゲーム開発やデバッグのコストダウン

人間らしさを表現する手法
生物学的制約の導入 [藤井, 2016]
※生物学的制約 : 生物が持っている環境下における制約

先行研究：生物学的制約を導入したスーパーマリオAI
[ 藤井, 2016 ]
人間らしい振る舞いを自動獲得するため
◆揺らぎ
◆遅れ
◆疲れ
◆訓練と挑戦のバランスを導入

導入前 : 穴の直前で最小限のジャンプをして攻略
導入後 : 穴の手前から安全なジャンプをして余裕を持って攻略
導入前導入後
[藤井叙人, 人間らしい振る舞いを自動獲得するゲームAIに関する研究, 2016 より引用]

学習にゲーム固有のパラメータの参照が必要
(自機、敵の位置座標、ステージ情報など)
◆他のゲームへ応用する際の処理の汎用性が低い
◆人間はそのような情報を正確に取得できるとは限らない
コイン : 6枚
ブロック : 6個
自機座標
X : 23
Y : 25
敵座標
X : 38
Y : 25

画面のみで学習できる深層強化学習に
生物学的制約を導入
ゲーム内部の固有な情報を必要としない
汎用的な人間らしいゲームAI の実現

深層強化学習に生物学的制約を導入して
ゲーム画面のみで学習
人間らしい振る舞いを自動獲得する
ゲームプレイヤ AI の作成

既存の研究対象
(ボードゲーム, アクションゲームなど)
◆ 行動やゴールまでの過程に多くの選択肢
◆ 人間らしい振る舞いの表現が多様
音楽ゲームなど
◆ 1つ1つの行動が明確に評価
◆ 獲得可能な最高スコアに至るまでの過程が明確
研究されていない
研究対象 : 音楽ゲーム

パネルを
足で踏む
太鼓を
バチで叩く
ボタンを
押す
画面をタッチする
音楽に合わせてアクション
を行い評価を得る

アクション一つ一つが判定によって評価される
最高の判定 : 良
全てのアクションで良を得ると
パーフェクト(最高スコア)となる
例太鼓の達人
アクションの種類
面を叩く
縁を叩く

音楽ゲームにおけるAI の活用例
太鼓の達人 AIバトル演奏
https://taiko-ch.net/blog/?p=3455
◆ プレイヤーとほとんど同じ腕前を発揮する「AIどん」と
勝つか負けるかのイイ勝負を楽しめるゲームモード
◆ スコアを調整するようにミスをする
◆ 少なくともこのような需要が存在

音楽ゲームで人間らしさを表現
人間らしい失敗を再現
例 : 視線や手の動きなどのズレによるミス,
緊張によるミス
連続して崩れるようなミス

生物学的制約の導入
ミスが引き起こされる原因は人間の身体的,精神的なもの

◆位置座標など内部パラメータに対する処理を
画面そのものに対する処理に変更して生物学的制約を定義
本研究の定義
A : 揺らぎ
B : 認識の遅れ
C : 行動の遅れ
D : 緊張
藤井の定義
◆揺らぎ
◆遅れ
◆疲れ
◆訓練と挑戦のバランス

◆ 人間がゲーム画面を見る際の視線、位置のズレ
X : 23px → 26px
先行研究提案処理
自機位置座標にノイズを付与し
ずらして与える
ゲーム画面の入力で
参照する範囲をずらす
キャプチャ範囲
人の視線のズレを再現

◆ ゲーム画面を見て局面を認識してから行動に移るまでの遅れ
数フレーム
過去の座標
X : 23px → 19px
先行研究提案処理
数フレーム過去の
自機位置座標を与える
入力する画像全体を
過去のものにする

◆ 行動を開始してからの指や手がキーボードなどの
入力デバイスを操作するまでの遅れ
提案処理
キー操作処理時に遅延を挿入
手がボタンを
押すまでの遅れ

◆ 成功が連続している時に「失敗したくない」と感じ
緊張した際の普段ではしないような失敗や
自分の意図に反した行動
提案処理
連続成功時
・ランダム行動選択率を増加
・行動の遅れを発生

DRQN(Deep Recurent Q-Network)を用いて
既存の音楽ゲーム「osu!mania」を
ゲーム画面の画像のみで強化学習
上から降ってくるノーツ(音符)に合わせて
4つのキーをタイミングよく押す
※osu!mania : PCで遊ぶことができる無料の音楽ゲーム
対応するキーを上から降ってくるノーツ(音符)
に合わせてタイミングよく押す

osu!maniaの実験環境
判定 : 良い順に 300虹 300黄 200 100 50 0 (ミス)
スコア : 達成率 (%) で表す最高スコア : 100%
達成率 = Σ (各判定数値 ) / (全判定回数 * 300)
判定の表示

判定判定の許容幅 (± ms)
300虹 16.5
300黄 49.5
200 82.5
100 112.5
50 136.5
例 : 正確なタイミングから60msずれていた場合は
49.5ms〜82.5msの間なので判定200を得る

ネットワーク構成
入力層
200 * 150 * 3 (ゲーム画面を1/4にした画像データ)
中間層
CNN 3層 (ゲーム画面の画像認識)
LSTM 1層 (過去の連続データからの予測)
全結合層 1層
出力層
行動の評価値ベクトル(どのキーを押すか)

操作と報酬
行動の種類
それぞれ４つのキーを操作 + 何も押さないの計5パターン
ε-greedy法でランダムな行動 (40% → 10%)
報酬
良い評価ほど高い報酬を与える
ミスと何もないところでの
キーの空打ちは負の報酬
ゲーム内の評価報酬値
300虹 200
300黄 150
200 30
100 15
50 10
0 (ミス) -50
空打ち -1

学習の流れ
DRQN
行動評価値
評価値に基づき行動
(キー入力)
判定を検出し報酬取得
報酬, 状態
出力
入力
(キャプチャしたゲーム画面)
揺らぎ
認識の遅れ
行動の遅れ
緊張

作成した学習モデル
番号生物学的制約実際の処理
A 揺らぎ
10%の確率で, 0.5秒間, 入力画面の座標を
-20〜20ピクセルの間でランダムにずらす
B 認識の遅れ入力する画面を0.1秒前のものにする
C 行動の遅れキー操作時に0.05秒の遅延を挿入
D 緊張
10連続でミスをしなかったらランダムな行動を
取る確率を2倍にして0.05秒遅延を挿入
E 無し生物学的制約無し

スコア、振る舞いの比較
20秒の楽曲で24つのノーツが流れてくる譜面を作成
それぞれのモデルを1000プレイずつ学習

A : 揺らぎ B : 認識の遅れ C : 行動の遅れ D : 緊張 E : 無し

0
10
20
30
40
50
60
70
80
90
100
0 100 200 300 400 500 600 700 800 900 1000
達成率(%)
プレイ回数
揺らぎ
認識の遅れ
行動の遅れ
緊張
無し
処理 : 10%の確率で, 0.5秒間入力画面の座標を
※スコアの移動平均を20で取ったもの
モデル A : 揺らぎ B : 認識の遅れ C : 行動の遅れ D : 緊張 E : 無し
スコア 72.70 69.58 76.83 81.36 84.91
900〜1000プレイ間の平均達成率(%)

0
10
20
30
40
50
60
70
80
90
100
0 100 200 300 400 500 600 700 800 900 1000
達成率(%)
プレイ回数
揺らぎ
認識の遅れ
行動の遅れ
緊張
無し
処理 : 入力する画面を0.1秒前のものにする
スコア 72.70 69.58 76.83 81.36 84.91

0
10
20
30
40
50
60
70
80
90
100
0 100 200 300 400 500 600 700 800 900 1000
達成率(%)
プレイ回数
揺らぎ
認識の遅れ
行動の遅れ
緊張
無し
処理 : キー操作時に0.05秒の遅延を挿入
スコア 72.70 69.58 76.83 81.36 84.91

0
10
20
30
40
50
60
70
80
90
100
0 100 200 300 400 500 600 700 800 900 1000
達成率(%)
プレイ回数
揺らぎ
認識の遅れ
行動の遅れ
緊張
無し
処理 : 10連続でミスをしなかったらランダムな行動を取る確率を
2倍にして0.05秒遅延を挿入
スコア 72.70 69.58 76.83 81.36 84.91

0
10
20
30
40
50
60
70
80
90
100
0 100 200 300 400 500 600 700 800 900 1000
達成率(%)
プレイ回数
揺らぎ
認識の遅れ
行動の遅れ
緊張
無し
生物学的制約有りはスコアが低下 → 失敗の行動が増加
スコア 72.70 69.58 76.83 81.36 84.91

0
10
20
30
40
50
60
70
80
90
100
0 100 200 300 400 500 600 700 800 900 1000
達成率(%)
プレイ回数
揺らぎ
認識の遅れ
行動の遅れ
緊張
無し
・追加実験として生物学的制約を学習済みモデルに後から導入
・最終的なスコアは大きく変わらなかった
スコア 72.33 71.76 75.00 79.90 84.91

0
10
20
30
40
50
60
300虹 300黄 200 100 50 0(ミス)
全体に占める比率(%)
判定の種類
制約毎の各判定の構成比
揺らぎ
認識の遅
れ
※900〜1000プレイ間の平均を取ったもの

番号生物学的制約
A 揺らぎ
B 認識の遅れ
C 行動の遅れ
D 緊張
E 無し
実験１で作成した各モデルの
プレイ映像実際の人間のプレイ映像
7種類のゲームプレイ映像を
12名の被験者見てもらい
振る舞いの人間らしさを評価
F 音楽ゲームの初級者
G 音楽ゲームの上級者

◆絶対評価 : 5段階評価 (1〜5, 高いほど人間らしい)
◆自由記述 : 評価の理由,
どのような振る舞いが人間らしかったか,
または人間らしくなかったか
７つの映像を1つずつランダムな順番で見せて回答

A 揺らぎ
B 認識の
遅れ
C 行動の
遅れ
D 緊張 E 無し F 初級者 G 上級者
平均評価値 2.17 2.08 3.83 3.08 3.33 3.75 4.33
標準偏差 0.80 0.86 1.14 0.76 1.18 1.09 0.75
◆ 実際の人間のプレイはかなり見破られた
◆「行動の遅れ」は実際の人間レベルに高評価
A B C D E F G
AIのプレイ映像人間のプレイ映像

人間らしい
人間らしくない
・タイミングが時々ずれる
・密度が高い(難しい)局面でリズムが崩れる
・ゲームが上手い、下手な人のような動き
・近くのキーを間違えて押す
・大きなミスはしないが全体でずれている
・上手いところと下手なところの差が大きい
・全く違うところを叩く ( 空打ち )
・同じキーの連打
・最高判定が連続する
・露骨すぎるミス

A : 揺らぎ、B : 認識の遅れ
◆ミス時の対応しないキーの
必要以上な空打ちは人間らしくない
◆最高判定とミスが多い → 局面ごとの振る舞いが極端すぎた
C : 行動の遅れ、D : 緊張
◆ミスにならない程度のリズムのズレが
中〜上級者に近い振る舞い

E : 制約無し
◆極端に精度の高いプレイ → 機械的ともかなりの上級者とも捉えられる
F : 初級者
◆ミスは多かったが、空打ちなどが少なかったため人間らしい評価を得た
G : 上級者
◆完璧すぎない上手いプレイ → 高スコアながら人間らしい
極端な失敗を増加させることよりも
微妙なズレなどを表現することが重要

まとめ
◆音楽ゲームを題材に人間らしい振る舞いを行うゲームAIを作成
◆深層強化学習に生物学的制約の導入
一部は人間プレイヤぐらい人間らしいと評価
今後の方針 ◆制約の与え方や処理方法の改善
◆ゲーム難易度を上げての学習
◆他の生物学的制約の導入
◆入力情報に音を導入

補足資料学習の各種設定値
使用ライブラリ : chainer
ミニバッチ数 : 64
割引率 : 0.98
Optimizer : AdaDelta

操作の自動化、判定の検出
PyAutoGUI (Pythonの自動化ライブラリ) を使用
◆ ゲーム画面のキャプチャ
◆ キー操作の自動化
◆ 判定表示の検出
判定表示を
検出できる形に変更
判定300黄を検出
報酬値150を与える

安定して高スコアを記録
達成率100%(パーフェクト)も確認
0
10
20
30
40
50
60
70
80
90
100
0 100 200 300 400 500 600 700 800 900
達成率
プレイ回数
達成率の推移(移動平均20)

処理 : 10%の確率で, 5フレーム間入力画面の座標を
0
10
20
30
40
50
60
70
80
90
100
0 100 200 300 400 500 600 700 800 900 1000
達成率
プレイ回数
達成率の推移(揺らぎ)
後から導入
最初から導入

処理 : 画面の入力を1フレーム遅延させる
0
10
20
30
40
50
60
70
80
90
100
0 100 200 300 400 500 600 700 800 900 1000
達成率(%)
プレイ回数
達成率の推移(認識の遅れ)
後から導入
最初から導入

処理 : キー操作時に0.05秒の遅延処理を挿入
0
10
20
30
40
50
60
70
80
90
100
0 100 200 300 400 500 600 700 800 900 1000
達成率(%)
プレイ回数
達成率の推移(行動の遅れ)
後から導入
最初から導入

処理 : 10連続で成功したらランダムな行動を取る確率を
2倍にして0.05秒遅延処理を挿入
0
10
20
30
40
50
60
70
80
90
100
0 100 200 300 400 500 600 700 800 900 1000
達成率
(%)
プレイ回数
達成率の推移(緊張)
後から導入
最初から導入

0
10
20
30
40
50
60
70
80
90
100
0 100 200 300 400 500 600 700 800 900 1000
達成率(%)
プレイ回数
揺らぎ
認識の遅れ
行動の遅れ
緊張
無し
スコア : 無し > 緊張 > 行動の遅れ > 揺らぎ > 認識の遅れ

・生物学的制約有りは全てスコアが低下 -> 失敗の行動が増加
・「揺らぎ」「認識の遅れ」 -> 0(ミス)が増加
・「行動の遅れ」「緊張」 -> 0(ミス)までにはならない
判定200程度のズレが増加

内容意見数
タイミング,リズムのズレ 11
局面による上手いところと下手なところ 8
無駄打ち,空打ち 8
キーの押す位置 7
ミスの仕方 7
初,中,上級者のような動き 4
最高評価の多さ, 少なさ(精度) 4
譜面の密度 2

被験者
絶対評価
映像1 映像 2 映像3 映像4 映像5 映像6 映像7
A (3) 2 2 5 4 1 5 3
B (3) 1 1 3 2 3 4 5
C (3) 2 2 4 3 4 4 5
D 3 2 5 3 5 5 5
E 2 3 2 3 4 3 4
F 1 2 4 3 3 3 5
G 1 3 5 2 4 3 4
H 2 1 3 2 4 1 5
I 3 2 5 4 2 4 4
J 3 1 2 3 2 4 3
K 3 2 5 4 3 5 4
L 3 4 3 4 5 4 5

音楽ゲームのプレイヤAIにおける人間らしく振る舞う強化学習手法の提案

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

音楽ゲームのプレイヤAIにおける人間らしく振る舞う強化学習手法の提案

Editor's Notes