Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
強化学習を利用した
自律型GameAIの取り組み
高速自動プレイによるステージ設計支援
February 10, 2017
Ryosuke Mas...
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
概要
 前半
⁃ 強化学習について
⁃ 強化学習の最先端
 後半
⁃ FINAL FANTASY Record Keeperでの取り組み
2
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
自己紹介
 関谷 英爾
 AIシステム部
⁃ AI関連の開発および分析基盤開発運用するチーム
 略歴
⁃ 新卒3年目
• VerticaやH...
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
AIシステム部
 Data Engineering
⁃ 社内のアナリストの分析サポートおよびそのためのツール開発
 分散基盤
⁃ Hadoop...
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
AI/データサービス
 最新動向を把握
⁃ 国際学会への参加
⁃ 論文のキャッチアップ
⁃ 社内勉強会の実施
 注力
⁃ Computer V...
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
概要
 前半
⁃ 強化学習について
⁃ 強化学習の最先端
 後半
⁃ FINAL FANTASY Record Keeperでの取り組み
6
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
強化学習の活用例
7
 ロボットのピッキング作業
⁃ 上手くものを拾えるように手の動かし方を学習
 自動運転
⁃ 事故を起こさないような運転方...
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
強化学習
 環境情報(入力)から取るべき行動(出力)を学ぶ
 行動を繰り返し行うことで良い(報酬が高くなる)行動を学んで
いく
8
状態の観測...
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
9
DQN
(Deep Q-Networks)
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Deep Learning × 強化学習 (DQN)
 強化学習に画像認識で培ったDeepLearningの技術を用いた
⁃ 画像情報を与えて試...
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Deep Learning × 強化学習(DQN)
 2014年にDeepMindのV.Mnihらが出した論文
⁃ Playing Atari ...
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
AlphaGO
 DeepMind社によって開発された囲碁プログラム
 2015年10月に初めてプロ棋士を破ったことで有名
 年末年始には囲...
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
概要
 前半
⁃ 強化学習について
⁃ 強化学習の最先端
 後半
⁃ FINAL FANTASY Record Keeperでの取り組み
13
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
14
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
15
機械学習のトップカンファレンスの1つ
NIPSの参加者数
指数関数的に増加
(引用: https://media.nips.cc/Confe...
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
16
その中でも「強化学習」は
最も注目されている領域の1つ
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
NIPS 2016
 Deep Learning関連の研究が多い
 今年の注目領域
⁃ GAN
⁃ 強化学習
 Best Paper
⁃ A...
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
DeepMind Lab
 AlphaGoで有名なDeepMindが公開したフレームワーク
⁃ https://www.youtube.com/...
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
OpenAI Universe
 AI技術のOpen化に取り組んでいるOpenAIが公開したフレームワーク
 ブラウザタスクを一般化して取り扱...
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
強化学習を用いてDeNAでどのようなことが可能か?
 様々なサービスのテストの自動化
⁃ QA工数の削減
 リッチなNPC(Non Playe...
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
21
FINAL FANTASY Record Keeper
における自律型AI活用事例
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
自己紹介
 益子 遼介
 2012年 新卒入社 エンジニア
 2012 ~ 2015/5
 主に、ゲーム事業本部においてMobageタイト...
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
アジェンダ
 FFRKのバトルとは
 ゲームの流れ
 画面構成
 AI設計
 どのようなAIがあればよいか?
 AIの学習アルゴリズム...
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
FINAL FANTASY Record Keeper (FFRK)
 株式会社スクウェア・エニックスとの共同開発
 2014-09-25 リ...
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
25
FFRKのバトルとは
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
26
イベントはダンジョンとし
て実装される
進むにつれ
難易度は上がっていく
©SQUARE ENIX Co., Ltd / DeNA Co.,...
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
27
ダンジョンに登場する
ボスの情報
©SQUARE ENIX Co., Ltd / DeNA Co., Ltd,
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
28
パーティを編成して
ダンジョンに挑む
©SQUARE ENIX Co., Ltd / DeNA Co., Ltd,
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
29
ダンジョンに入ったら
いよいよバトル
©SQUARE ENIX Co., Ltd / DeNA Co., Ltd,
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
FFRKボスバトル仕様
30
キャラクターごとに
• HP
• 各種能力値
• 状態異常
• etc…
ボスキャラクターごとに
• HP
• 状態...
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
ボスAIの内部実装
31
初期状態
通常状態
津波集め状態
防御状態
 ステートベースAIとして実装
©SQUARE ENIX Co., Ltd...
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
ボスAIの設計時の課題
32
初期状態
通常状態
津波集め状態
防御状態
雷属性攻撃をN発受け
ると遷移
or
津波攻撃の後、遷移
残りHPがN以...
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
ボスAIの設計時の課題
さらに
 ゲームバランスを破壊するようなパーティ組み合わせの検出
 数百回バトルを繰り返し、統計量の算出
にも応用でき...
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
34
AI設計
AIをどのように作るか?
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
FFRKにおけるAI要件
 FFRKのバトルには、ランダムな要素が多く含まれる。
⁃ 初期行動順
⁃ 行動結果の振れ幅(行動の成否、ダメージの振...
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
学習環境構成
FFRK シミュレータ
Node.js製
学習エンジン
Python製
Unix Domain Socket
ボス、キャラ、
アビリ...
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
シミュレーター実装
 行動選択API
⁃ バトル中のプレイヤー行動をシミュレーター内で実行するAPI
⁃ ユーザーのボタンタップに相当
 フレ...
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
38
行動決定のためのアルゴリズム
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
アルゴリズム
 探索的アプローチ
 Monte Carlo Tree Search
 ニューラルネットを用いたアプローチ
 NEAT
 ...
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
アルゴリズム
 探索的アプローチ
 Monte Carlo Tree Search
 ニューラルネットを用いたアプローチ
 NEAT
 ...
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
探索的アプローチ
 現在取りうる行動をそれぞれ試行して算出した行動価値を元に、次の最
適行動を決定する手法
 一般的に、全ての行動パターンを十...
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Monte Carlo 法
 今回、より効率的に試行を割り振るMonte Carlo Tree Search(
MCTS)を実装して評価
42
...
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
MCTSの評価
 Pros
⁃ 実装がシンプル
⁃ 評価関数も定義しやすい
• 最終的な勝敗(1[勝ち] or 0[負け])をスコアとする場合が...
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
アルゴリズム
 探索的アプローチ
 モンテカルロ木探索
 ニューラルネットを用いたアプローチ
 NEAT
 Q-learning
44
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
ニューラルネットによるアプローチ
 人間のプレイ中の思考過程をニューラルネットで表現できないか
 つまり、行動決定関数をニューラルネットで表現...
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
46
ニューラルネットの学習アルゴリズム
NEAT & Q-learning
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
NEAT
 ニューラルネットを遺伝的アルゴリズムで学習させる手法の1つ
 ネットワーク構造を1つの個体とする
 第1世代として多数のニューラ...
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
NEAT
 第2世代に引き継がれたもののうち、
 よかったもの同士を混ぜ合わせる(交叉)
 完全にランダムな個体を紛れ込ませる(突然変異)
...
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
 結果として、世代が進むごとに、自律的にネットワーク構造を学習。
NEAT
49
第N世代
第1世代 第2世代
突然変異
交叉
©SQUARE ...
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
 「遺伝」を模したアルゴリズム
 遺伝子の交叉、突然変異、環境適応による淘汰
 適応度の低い個体を淘汰し、優れた個体を次の世代へ
 交叉・...
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
 「遺伝」を模したアルゴリズム
 遺伝子の交叉、突然変異、環境適応による淘汰
 適応度の低い個体を淘汰し、優れた個体を次の世代へ
 交叉・...
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
52
果てしないチューニングの道のり
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
初期の学習型AIの問題
 回復スキルを使用しなかったり、タイミングがデタラメ。
 補助スキルを無駄に連打してしまう。
 学習が遅い
53
•...
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
54
AIによる推薦行動ログの解説
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
AIによる学習行動ログ解説
 序盤〜中盤の動き
 味方のステータスを引き上げる
 敵のステータスを引き下げる
 敵の弱点を突く氷属性で攻撃...
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
行動ログ解説
 終盤の動き
 敵の強力な全体攻撃が増える
 全体回復必殺技で対応
 味方を強化する必殺技
 敵のステータスを下げる必殺技...
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
NEATの評価
 Pros
 中間層の構造は全て学習過程で生成されるため、構造を事前に定義
しなくともよい
 ただし、中間ノードの生成確率な...
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
強化学習(Q-Learning)
 「バトル」の中で「AI」が状況を観察し、行動、その結果フィードバッ
クを通じて取るべき行動を選択する最適な方...
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
強化学習(Q-Learning)
 状態sにおいて、行動aを選択
59
環境 エージェント
行動決定関数
状態s
(味方HP、ボスHPなど)
行...
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
強化学習(Q-Learning)
 状態sにおいて、行動aを選択
 その結果得られる報酬をr、行動の結果として環境は状態s’に遷移
60
環境...
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
強化学習(Q-Learning)
 状態sにおいて、行動aを選択
 その結果得られる報酬をr、行動の結果として環境は状態s’に遷移
 そして...
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
強化学習(Q-Learning)
 最適行動は、将来的な報酬が大きくなるように行動を選択する必要があ
る
 将来的な報酬とは….
 状態sに...
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
FFRKの問題の特徴と強化学習の取り組み
 行動選択の際にすぐに報酬が得られない(遅延報酬)
 どの行動がよかったのか適切に判定できない
 ...
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Q-Learningの評価
 Pros
 学習の進み収束具合が定量的に判断しやすい
 LOSS値や累積報酬和の変化
 Cons
 探索と...
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
65
シミュレーションの
デモムービーを展示しています!
@展示スペース
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
AIの現状と残課題
 現状
 ボス1体のバトルにおいて、人間と遜色ないレベルでの勝率
 100戦勝率
 行動解析
 課題
 学習時間
...
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
まとめ
 AIによるゲームの自動プレイは実際に可能、というところまできている
 対応できていない高度なバトル・戦術については引き続き改善予定
...
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
実サービス向け学習環境構成
68
Learning API Server
学習用インスタン
ス
Jenkins
ジョブ ジョブ ジョブ
学習用イン...
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
最後に、これからゲームへのAI活用をすすめる上で
 途中からAIを利用しようとするとそれなりに工数がかかる
 特に、AIの学習には膨大な試行回...
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
70
ご静聴ありがとうございました
Upcoming SlideShare
Loading in …5
×

強化学習を利用した自律型GameAIの取り組み ~高速自動プレイによるステージ設計支援~ #denatechcon

4,315 views

Published on

DeNA TechCon 2017の登壇資料です。

Published in: Technology
  • Be the first to comment

強化学習を利用した自律型GameAIの取り組み ~高速自動プレイによるステージ設計支援~ #denatechcon

  1. 1. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 強化学習を利用した 自律型GameAIの取り組み 高速自動プレイによるステージ設計支援 February 10, 2017 Ryosuke Mashiko, Eiji Sekiya AI System Dept. DeNA Co., Ltd.
  2. 2. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 概要  前半 ⁃ 強化学習について ⁃ 強化学習の最先端  後半 ⁃ FINAL FANTASY Record Keeperでの取り組み 2
  3. 3. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 自己紹介  関谷 英爾  AIシステム部 ⁃ AI関連の開発および分析基盤開発運用するチーム  略歴 ⁃ 新卒3年目 • VerticaやHadoop等の分析基盤運用 • 機械学習のサービス応用 3
  4. 4. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. AIシステム部  Data Engineering ⁃ 社内のアナリストの分析サポートおよびそのためのツール開発  分散基盤 ⁃ Hadoopなどのログ収集基盤開発・運用  AI/データサービス ⁃ 機械学習などを用いたサービス応用 4
  5. 5. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. AI/データサービス  最新動向を把握 ⁃ 国際学会への参加 ⁃ 論文のキャッチアップ ⁃ 社内勉強会の実施  注力 ⁃ Computer Vision ⁃ 自然言語処理 ⁃ 強化学習 5
  6. 6. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 概要  前半 ⁃ 強化学習について ⁃ 強化学習の最先端  後半 ⁃ FINAL FANTASY Record Keeperでの取り組み 6
  7. 7. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 強化学習の活用例 7  ロボットのピッキング作業 ⁃ 上手くものを拾えるように手の動かし方を学習  自動運転 ⁃ 事故を起こさないような運転方法を学習  囲碁AI ⁃ 勝てるような手を学習
  8. 8. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 強化学習  環境情報(入力)から取るべき行動(出力)を学ぶ  行動を繰り返し行うことで良い(報酬が高くなる)行動を学んで いく 8 状態の観測 報酬 行動 エージェント環境
  9. 9. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 9 DQN (Deep Q-Networks)
  10. 10. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Deep Learning × 強化学習 (DQN)  強化学習に画像認識で培ったDeepLearningの技術を用いた ⁃ 画像情報を与えて試行錯誤をすれば取るべき行動を学べる ようになった ⁃ 状態の特徴を人の手で作り込む必要がなくなった 10 状態(画像)の観測 報酬 行動 エージェント (Deep Learning) 環境
  11. 11. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Deep Learning × 強化学習(DQN)  2014年にDeepMindのV.Mnihらが出した論文 ⁃ Playing Atari with Deep Reinforcement Learning ⁃ Atari 2600のゲームをクリアしたという論文  Atari 2600って? ⁃ 米国atari社が出した家庭用ゲーム機 • Pong, Space Invaders, Enduro, etc. • DQNでDeepMindがSpace Invadersを学習させた動画 ⁃ https://www.youtube.com/watch?v=W2CAghUiofY 11
  12. 12. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. AlphaGO  DeepMind社によって開発された囲碁プログラム  2015年10月に初めてプロ棋士を破ったことで有名  年末年始には囲碁がインターネット対戦できる「野狐囲碁」と 「東洋囲碁」で匿名で参加し全勝  理論の特徴 ⁃ DeepLearningを用いた ⁃ 教師あり学習でプロ棋士の手を学習 ⁃ コンピュータ同士による対戦で強化学習 ⁃ モンテカルロ木探索による最善手の探索 12
  13. 13. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 概要  前半 ⁃ 強化学習について ⁃ 強化学習の最先端  後半 ⁃ FINAL FANTASY Record Keeperでの取り組み 13
  14. 14. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 14
  15. 15. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 15 機械学習のトップカンファレンスの1つ NIPSの参加者数 指数関数的に増加 (引用: https://media.nips.cc/Conferences/2016/NIPS-2016-Conference-Book.pdf)
  16. 16. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 16 その中でも「強化学習」は 最も注目されている領域の1つ
  17. 17. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. NIPS 2016  Deep Learning関連の研究が多い  今年の注目領域 ⁃ GAN ⁃ 強化学習  Best Paper ⁃ A. Tamarらの「Value Iteration Networks」 ⁃ 強化学習に関する研究が選ばれた  強化学習に関する大きな二つの発表 ⁃ DeepMind Lab ⁃ OpenAI Universe ⁃ 共通点 • シミュレーション環境の構築の難しさや共通の問題を世界で取り組み競える ようにシミュレーション環境を提供 17
  18. 18. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. DeepMind Lab  AlphaGoで有名なDeepMindが公開したフレームワーク ⁃ https://www.youtube.com/watch?v=M40rN7afngY  FirstPersonViewの問題が対象 ⁃ 3D空間を観察(入力) ⁃ 3D空間内での行動(出力)  2Dではなく、3D空間を観察し行動 ⁃ ロボティクスの分野での応用も考えられる 18
  19. 19. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. OpenAI Universe  AI技術のOpen化に取り組んでいるOpenAIが公開したフレームワーク  ブラウザタスクを一般化して取り扱えるように ⁃ ブラウザを観察(入力) ⁃ キーボード操作(出力)  様々なブラウザタスクが学習できる対象 ⁃ Gameのプレイだけでなく、スクロールや文字入力も 19 引用: https://openai.com/assets/blog/universe/interface- 725abed463ba2b83d4a68fd08d1818fed900a939cb9c4b9eb1bac07952b4fe61.png
  20. 20. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 強化学習を用いてDeNAでどのようなことが可能か?  様々なサービスのテストの自動化 ⁃ QA工数の削減  リッチなNPC(Non Player Character)戦 ⁃ 電脳戦 ⁃ マルチプレイ通信断後のプレイ引き継ぎ  ステージ設計支援 ⁃ プランナーの工数削減 20 FINAL FANTASY Record Keeperにおける 高速自動プレイによるステージ設計支援
  21. 21. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 21 FINAL FANTASY Record Keeper における自律型AI活用事例
  22. 22. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 自己紹介  益子 遼介  2012年 新卒入社 エンジニア  2012 ~ 2015/5  主に、ゲーム事業本部においてMobageタイトルのエンジニア  2015/5 ~  AIシステム部  分散処理アプリケーション開発、基盤運用:  Elasticsearch, Cassandra, Storm  AI開発:  本プロジェクトのシステム全体設計、アルゴリズム実装  etc.. 22
  23. 23. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. アジェンダ  FFRKのバトルとは  ゲームの流れ  画面構成  AI設計  どのようなAIがあればよいか?  AIの学習アルゴリズム  探索的アプローチ  ニューラルネットによるアプローチ 23
  24. 24. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. FINAL FANTASY Record Keeper (FFRK)  株式会社スクウェア・エニックスとの共同開発  2014-09-25 リリース  リリース後1年半で1000万ダウンロード  FINAL FANTASYの歴代タイトルにおけるバトルをアプリ上で追体験 24
  25. 25. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 25 FFRKのバトルとは
  26. 26. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 26 イベントはダンジョンとし て実装される 進むにつれ 難易度は上がっていく ©SQUARE ENIX Co., Ltd / DeNA Co., Ltd,
  27. 27. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 27 ダンジョンに登場する ボスの情報 ©SQUARE ENIX Co., Ltd / DeNA Co., Ltd,
  28. 28. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 28 パーティを編成して ダンジョンに挑む ©SQUARE ENIX Co., Ltd / DeNA Co., Ltd,
  29. 29. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 29 ダンジョンに入ったら いよいよバトル ©SQUARE ENIX Co., Ltd / DeNA Co., Ltd,
  30. 30. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. FFRKボスバトル仕様 30 キャラクターごとに • HP • 各種能力値 • 状態異常 • etc… ボスキャラクターごとに • HP • 状態異常 • etc… キャラクターごとに • 攻撃 • 防御 • アビリティ • 必殺技 • フレンド召喚©SQUARE ENIX Co., Ltd / DeNA Co., Ltd,
  31. 31. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. ボスAIの内部実装 31 初期状態 通常状態 津波集め状態 防御状態  ステートベースAIとして実装 ©SQUARE ENIX Co., Ltd / DeNA Co., Ltd,
  32. 32. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. ボスAIの設計時の課題 32 初期状態 通常状態 津波集め状態 防御状態 雷属性攻撃をN発受け ると遷移 or 津波攻撃の後、遷移 残りHPがN以下の場合、 X%の確率で遷移  ステートはボスごとに異なるため、調整ポイントも毎度設計が必要 ©SQUARE ENIX Co., Ltd / DeNA Co., Ltd, ボスごとにチューニングポイントが複数ある
  33. 33. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. ボスAIの設計時の課題 さらに  ゲームバランスを破壊するようなパーティ組み合わせの検出  数百回バトルを繰り返し、統計量の算出 にも応用できそう 33 人手でやるのは大変 AIによる高速自動プレイ ボスパラメータ調整 実機でのプレイ感評価 端末適用再設計
  34. 34. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 34 AI設計 AIをどのように作るか?
  35. 35. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. FFRKにおけるAI要件  FFRKのバトルには、ランダムな要素が多く含まれる。 ⁃ 初期行動順 ⁃ 行動結果の振れ幅(行動の成否、ダメージの振れ幅) ⁃ ボス行動  事前に行動を予測しておくことはできず、 ⁃ 進行状況に応じて ⁃ 将来的に最も有利となる行動をとるAIが必要 ⁃ 将来的に人間らしさも考慮 35 入力 • 操作キャラのステータス • ボスのステータス • 現在取りうる行動 • Etc.. 出力 • 誰が • 誰に • 何をする行動決定関数
  36. 36. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 学習環境構成 FFRK シミュレータ Node.js製 学習エンジン Python製 Unix Domain Socket ボス、キャラ、 アビリティな ど、バトル情 報をまとめた JSON 初期化API 行動API 結果 結果 行動の結果を評価 し、次の行動を決 定  学習エンジン: Python  シミュレーター:Node.js ⁃ Python側から任意のバトルをシミュレートできる  ソケット通信でやりとりしている。
  37. 37. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. シミュレーター実装  行動選択API ⁃ バトル中のプレイヤー行動をシミュレーター内で実行するAPI ⁃ ユーザーのボタンタップに相当  フレーム進行API ⁃ ゲーム内時間を任意のフレーム(ゲーム内時間)すすめるAPI ⁃ 学習エンジン側で、ゲームの進捗を管理  Fork API ⁃ 現在のシミュレーターをプロセスまるごとコピーするAPI ⁃ 並列化、探索アルゴリズムに利用 37
  38. 38. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 38 行動決定のためのアルゴリズム
  39. 39. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. アルゴリズム  探索的アプローチ  Monte Carlo Tree Search  ニューラルネットを用いたアプローチ  NEAT  AI学習結果の解説  Q-learning 39
  40. 40. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. アルゴリズム  探索的アプローチ  Monte Carlo Tree Search  ニューラルネットを用いたアプローチ  NEAT  AI学習結果の解説  Q-learning 40
  41. 41. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 探索的アプローチ  現在取りうる行動をそれぞれ試行して算出した行動価値を元に、次の最 適行動を決定する手法  一般的に、全ての行動パターンを十分探索すれば最適解が得られるが、 現実的には効率的に探索範囲を削減する必要がある。 41 ターン1(初期状態) ターン2 どのアクションを選択し たらよいか、実際に行動 してみて評価する ターン3
  42. 42. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Monte Carlo 法  今回、より効率的に試行を割り振るMonte Carlo Tree Search( MCTS)を実装して評価 42 ①初期行動を選択後 ②選択行動後は、ランダムに行動を 選択して終了まで行動する(プレイ アウト) ③終了時の状態を選択行動の評価値 とする ① 〜 ③を可能限り多く試行する 探索ターン バトル終了
  43. 43. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. MCTSの評価  Pros ⁃ 実装がシンプル ⁃ 評価関数も定義しやすい • 最終的な勝敗(1[勝ち] or 0[負け])をスコアとする場合が多い • 実際には 0〜1の間で連続したスコアとなるように調整している。 ⁃ (ニューラルネットによるアプローチと比べ)事前の学習が不要  Cons ⁃ ターン毎に毎回探索する必要があり、現状の環境では実利用可能な レベルでの応答性は達成できなかった。 • 1ターン行動推薦の度に1分半程度かかる ⁃ プレイアウトの影響で、長期戦や勝ち筋の少ないバトルで苦戦 43 イフリート戦勝率 0%
  44. 44. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. アルゴリズム  探索的アプローチ  モンテカルロ木探索  ニューラルネットを用いたアプローチ  NEAT  Q-learning 44
  45. 45. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. ニューラルネットによるアプローチ  人間のプレイ中の思考過程をニューラルネットで表現できないか  つまり、行動決定関数をニューラルネットで表現する 45 入力 出力 ©SQUARE ENIX Co., Ltd / DeNA Co., Ltd,
  46. 46. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 46 ニューラルネットの学習アルゴリズム NEAT & Q-learning
  47. 47. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. NEAT  ニューラルネットを遺伝的アルゴリズムで学習させる手法の1つ  ネットワーク構造を1つの個体とする  第1世代として多数のニューラルネット(個体)をランダムに生成、そ れぞれバトルを試行させ、結果のよかったものを第2世代に引き継ぐ。 47 第1世代 ©SQUARE ENIX Co., Ltd / DeNA Co., Ltd, 戦績評価
  48. 48. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. NEAT  第2世代に引き継がれたもののうち、  よかったもの同士を混ぜ合わせる(交叉)  完全にランダムな個体を紛れ込ませる(突然変異) などの操作をして、ネットワークを改善していく 48 第1世代 第2世代 突然変異 交叉 ©SQUARE ENIX Co., Ltd / DeNA Co., Ltd,
  49. 49. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.  結果として、世代が進むごとに、自律的にネットワーク構造を学習。 NEAT 49 第N世代 第1世代 第2世代 突然変異 交叉 ©SQUARE ENIX Co., Ltd / DeNA Co., Ltd,
  50. 50. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.  「遺伝」を模したアルゴリズム  遺伝子の交叉、突然変異、環境適応による淘汰  適応度の低い個体を淘汰し、優れた個体を次の世代へ  交叉・突然変異などを繰り返して最適解に近づけていく 第N世代 ニューラルネットワーク x 遺伝的アルゴリズム 50 第1世代 第2世代 突然変異 交叉 初期ネットワーク 出力層 入力層 入力可能な行動フラグと対応 する出力を結ぶだけの構造を 初期値に設定 1000世代 ~
  51. 51. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.  「遺伝」を模したアルゴリズム  遺伝子の交叉、突然変異、環境適応による淘汰  適応度の低い個体を淘汰し、優れた個体を次の世代へ  交叉・突然変異などを繰り返して最適解に近づけていく 第N世代 ニューラルネットワーク x 遺伝的アルゴリズム 51 第1世代 第2世代 突然変異 交叉 世代 学習スコア
  52. 52. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 52 果てしないチューニングの道のり
  53. 53. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 初期の学習型AIの問題  回復スキルを使用しなかったり、タイミングがデタラメ。  補助スキルを無駄に連打してしまう。  学習が遅い 53 • キャラクターのHPの入力を 0 ~ 1ではなく、 -0.5 ~ 0.5に • ステータス値のバトル開始時からの変動率を入力に追加 • 過去のスキル発動履歴を入力に追加 • 並列学習の実装
  54. 54. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 54 AIによる推薦行動ログの解説
  55. 55. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. AIによる学習行動ログ解説  序盤〜中盤の動き  味方のステータスを引き上げる  敵のステータスを引き下げる  敵の弱点を突く氷属性で攻撃  ダメージを受けたら早めに回復 55 行動 聖なる守護神 (味方全員にヘイスト・リジェネ・魔防 UP) シェルガ (味方全員にシェル) 敵通常攻撃 ブリザジャ (氷属性の魔法攻撃) ケアルガ 敵通常攻撃 フルブレイク (敵のステータスを下げる) ケアルガ ブリザガ剣 (氷属性の物理攻撃) ハイマジックブレイク (敵の魔力を下げる) … ©SQUARE ENIX Co., Ltd / DeNA Co., Ltd,
  56. 56. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 行動ログ解説  終盤の動き  敵の強力な全体攻撃が増える  全体回復必殺技で対応  味方を強化する必殺技  敵のステータスを下げる必殺技  強力な氷魔法必殺技で畳み掛ける 56 行動 … ほのお (HPの1/4のダメージを与える全体攻撃) キャニスターショット (防御力・魔防DOWN必殺技) 敵通常攻撃 夢のステージ (味方全体を回復必殺技) 魔女の覚醒 (強力な氷魔法必殺技) 火炎(HPの1/2のダメージ与える攻撃) G.Fケルベロス (魔法攻撃の詠唱時間を短縮) メテオ (大ダメージを与える全体攻撃) 真の魔法・氷滅 (4連氷属性魔法) … ©SQUARE ENIX Co., Ltd / DeNA Co., Ltd,
  57. 57. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. NEATの評価  Pros  中間層の構造は全て学習過程で生成されるため、構造を事前に定義 しなくともよい  ただし、中間ノードの生成確率など、それなりにチューニングは必要  1世代の個体評価は並列に行うことができるので、並列化により学 習時間の短縮が可能  Cons  ランダムな遺伝子生成に依存しているため、学習がいつ収束するの か未知数(収束しない場合もある)  基本的にネットワークを拡大させる方向に学習が進むので、無駄に 構造が大きくなる可能性がある 57 イフリート戦勝率 40%前後
  58. 58. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 強化学習(Q-Learning)  「バトル」の中で「AI」が状況を観察し、行動、その結果フィードバッ クを通じて取るべき行動を選択する最適な方法を見出す  ニューラルネットの構造は、NEATで学習したものを参考に設定 58 行動決定関数 状態の観測 報酬 行動 環境 ©SQUARE ENIX Co., Ltd / DeNA Co., Ltd,
  59. 59. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 強化学習(Q-Learning)  状態sにおいて、行動aを選択 59 環境 エージェント 行動決定関数 状態s (味方HP、ボスHPなど) 行動a (攻撃、防御、必殺技など) ©SQUARE ENIX Co., Ltd / DeNA Co., Ltd,
  60. 60. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 強化学習(Q-Learning)  状態sにおいて、行動aを選択  その結果得られる報酬をr、行動の結果として環境は状態s’に遷移 60 環境 エージェント 状態s (味方HP、ボスHPなど) 行動a (攻撃、防御、必殺技など) 報酬r (与被ダメージの和など) ©SQUARE ENIX Co., Ltd / DeNA Co., Ltd, 行動決定関数
  61. 61. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 強化学習(Q-Learning)  状態sにおいて、行動aを選択  その結果得られる報酬をr、行動の結果として環境は状態s’に遷移  そして状態s’について行動選択があり… と、状態 -> 行動 -> 報酬 は連 鎖 61 環境 エージェント 状態s (味方HP、ボスHPなど) 行動a (攻撃、防御、必殺技など) 報酬r (与被ダメージの和など) ©SQUARE ENIX Co., Ltd / DeNA Co., Ltd, 行動決定関数
  62. 62. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 強化学習(Q-Learning)  最適行動は、将来的な報酬が大きくなるように行動を選択する必要があ る  将来的な報酬とは….  状態sにおける行動a、その後の状態変化後の展開も含めた収益の総 和  これを予測できるようにネットワークを更新していく 62 環境 エージェント 状態s (味方HP、ボスHPなど) 行動a (攻撃、防御、必殺技など) 報酬r (与被ダメージの和など) ©SQUARE ENIX Co., Ltd / DeNA Co., Ltd, 行動決定関数 重み更新
  63. 63. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. FFRKの問題の特徴と強化学習の取り組み  行動選択の際にすぐに報酬が得られない(遅延報酬)  どの行動がよかったのか適切に判定できない  多くの研究で同じ課題への解決方法が提案されている[1]  細かい時間間隔でターン制でない  連続時間や連続行動空間を扱うことを得意とする別の強化学習の枠 組みが必要[2,3] 63 1. NIPS 2016でもAtari 2600のMontezma’s Revengeというゲームを題材に研究報告がされている 2. 価値関数の限界 - Q-Learning, Sarsa 3. Actor-Criticのようなアルゴリズムを採用 .. 行動した価値だけを学ぶのではなく、取るべき行動を学習する 手法
  64. 64. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Q-Learningの評価  Pros  学習の進み収束具合が定量的に判断しやすい  LOSS値や累積報酬和の変化  Cons  探索とのバランスが難しい  NEATなどの遺伝的アルゴリズムと違い地道な改善は見られるが学習中に大 きなブレークスルーが起きづらい  対策となり得る論文紹介  Prioritized Experience Replay(不均一な探索に対する学習改善)  Unifying Count-Based Exploration and Intrinsic Motivation(不均一な探索の解 消) 64 イフリート戦勝率 40%前後
  65. 65. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 65 シミュレーションの デモムービーを展示しています! @展示スペース
  66. 66. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. AIの現状と残課題  現状  ボス1体のバトルにおいて、人間と遜色ないレベルでの勝率  100戦勝率  行動解析  課題  学習時間  目標1時間のところ、難易度の高いボスでは10時間ほどかかっている。  状態異常の評価が上手くできていない  たとえば回復スキルは一般に評価の高い行動となるが、回復してあげたいキ ャラがリフレク状態(魔法を跳ね返す)の場合は、ボスを回復してしまうの でNG  複数ボスへの対応  ボスの数だけNNが倍増し、学習時間も倍増 66
  67. 67. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. まとめ  AIによるゲームの自動プレイは実際に可能、というところまできている  対応できていない高度なバトル・戦術については引き続き改善予定  学習したAIを実際に業務に活用していくフェーズ 67
  68. 68. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 実サービス向け学習環境構成 68 Learning API Server 学習用インスタン ス Jenkins ジョブ ジョブ ジョブ 学習用インスタン ス 学習用インスタン スAMI FFRK Development Tool Memcached 学習済みモデルを S3 バトルID、バトル情報 行動レコメンデーション 学習フェーズ AI利用フェーズ S3 Recommendation API Server
  69. 69. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 最後に、これからゲームへのAI活用をすすめる上で  途中からAIを利用しようとするとそれなりに工数がかかる  特に、AIの学習には膨大な試行回数が必要になるケースが多いので 、ゲームを高速で試行できるようなシミュレータの実装は必須  ゲームの設計段階でどこまでAIを利用するかきちんと定義し、それに合 わせてシミュレーターやデータ形式を用意しておくのが吉。 69
  70. 70. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 70 ご静聴ありがとうございました

×