Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

ゲームバランス調整補助のための強化学習の効率化

240 views

Published on

『CCSE2019』で発表された資料です。

https://ccse.jp/2019/

Published in: Engineering
  • DOWNLOAD THIS BOOKS INTO AVAILABLE FORMAT (Unlimited) ......................................................................................................................... ......................................................................................................................... Download Full PDF EBOOK here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... Download Full EPUB Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... ACCESS WEBSITE for All Ebooks ......................................................................................................................... Download Full PDF EBOOK here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... Download EPUB Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... Download doc Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... ......................................................................................................................... ......................................................................................................................... .............. Browse by Genre Available eBooks ......................................................................................................................... Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Cookbooks, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult,
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here

ゲームバランス調整補助のための強化学習の効率化

  1. 1. Copyright © GREE, Inc. All Rights Reserved. ゲームバランス調整補助のための 強化学習の効率化 グリー株式会社 開発本部 辻本 貴昭
  2. 2. Copyright © GREE, Inc. All Rights Reserved. • 継続的なコンテンツ追加が必要 • バランス調整作業に工数を費やしている • パラメータ変更 • バランス確認のためのテストプレイ • AIによるテストプレイを利用した事例が存在 背景 2 強化学習によるテストプレイAIで効率化
  3. 3. Copyright © GREE, Inc. All Rights Reserved. 課題 3 • 強化学習には膨大な時間と計算リソースが必要 • コンテンツのリリース間隔が短い 強化学習を開発サイクルに組み込めない
  4. 4. Copyright © GREE, Inc. All Rights Reserved. Deep Reinforcement Learning with a Natural Language Action Space He et al., 2016 ゲームの強化学習効率化に関する先行研究 4 • テキストゲームの強化学習効率化 • 状態が自然言語で表される • 行動を自然言語で入力する • Deep Reinforcement Relevance Network (DRRN) • 行動を個別に評価 • 状態と行動をそれぞれ埋め込む あなたは川のそばにいます > 南へ行く 川は5cm程の隙間に流れ込んでいます > 隙間へ行く 隙間は狭すぎて入れません
  5. 5. Copyright © GREE, Inc. All Rights Reserved. DRRN DRRNの行動の個別評価 5 DQN 行動を一括評価 行動を個別に評価 State Act1 … Actn VAct1 … VActn 価値関数 … 価値関数 VAct1 State Act1 価値関数 VActn State Actn 行動の個別評価によって選択肢数の変化に対応
  6. 6. Copyright © GREE, Inc. All Rights Reserved. • テキストゲームの特徴 • 状態を表す文章は長く複雑 • 行動を表す文章は短く単純 • 状態と行動それぞれを埋め込む • 強化学習と同時に埋め込みを学習 • 2つの埋め込み表現の関連度を評価 DRRNの行動の埋め込み 6 State h1 state h2 state Act1 h1 act h2 act Relevance1
  7. 7. Copyright © GREE, Inc. All Rights Reserved. 目的・提案手法 7 目的 • DRRNに基づくターン制コマンドバトルの強化学習効率化 • 行動が表形式のデータで表現される • ターンごとに行動を選択する 提案手法 1. マスタデータを用いた行動の埋め込み 2. 埋め込んだ行動を用いた強化学習
  8. 8. Copyright © GREE, Inc. All Rights Reserved. マスタデータ 行動の埋め込み 8 技 威力 命中率 物理 水 炎 雷 斬撃 20 90% True False False False 水魔法 30 60% False True False False 0.3 0.6 0.9 0.1 0.5 0.4 0.1 0.1 AutoEncoder
  9. 9. Copyright © GREE, Inc. All Rights Reserved. DRRN 行動の評価 9 提案手法 h1 h2 Value1 State (Emb)Act1 強化学習中に埋め込み獲得 埋め込まれた行動を入力 State h1 state h2 state Act1 h1 act h2 act Relevance1 … …
  10. 10. Copyright © GREE, Inc. All Rights Reserved. 比較手法 実験設定 10 埋め込み表現なし 埋め込み表現あり 行動の一括評価 DQN AE 行動の個別評価 PA-DQN AE+PA-DQN 実験方法 • Pokémon Showdown • 100ステップの学習ごとに100回の対戦で評価
  11. 11. Copyright © GREE, Inc. All Rights Reserved. • 2人対戦ターン制コマンドバトル • 6体のポケモンでチームを構成 • ターン毎に行動を1つ選択する • 行動の選択肢は最大9個 • 相手ポケモンの体力をすべて0にすると勝利 Pokémon Showdown 11
  12. 12. Copyright © GREE, Inc. All Rights Reserved. 実験結果 12 一括 個別
  13. 13. Copyright © GREE, Inc. All Rights Reserved. 実験結果 13 一括 個別 性能向上開始
  14. 14. Copyright © GREE, Inc. All Rights Reserved. 実験結果 14 埋め込みによって学習初期の学習効率が向上
  15. 15. Copyright © GREE, Inc. All Rights Reserved. 実験結果 15 行動を埋め込むと最終的な性能は劣る
  16. 16. Copyright © GREE, Inc. All Rights Reserved. 考察 • 行動の個別評価による効率化 • 状態の多様性が低くなる • 行動の純粋な価値を評価可能 • 行動の埋め込みによる性能低下 • 重要な特徴が無視される可能性 課題 • ドメイン知識を活用した埋め込み • 複数のキャラクタの行動を選択するゲームへ適用 考察・課題 16

×