SlideShare a Scribd company logo
1 of 30
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
ゲーム体験を支える強化学習の実応用について
SHIBUYA Synapse #2
November 23, 2017
Jun Ernesto Okumura
Yu Kono
Ikki Tanaka
AI System Dept.
DeNA Co., Ltd.
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Copyright © DeNA Co.,Ltd. All Rights Reserved.
自己紹介
名前
奥村 エルネスト 純(@pacocat)
経歴(2017/11時点)
宇宙物理学 Ph.D
→ DeNA入社(2014年)
→ データアナリスト@分析部(〜2016年)
- ゲームデータ分析、ゲームパラメータデザイン
→ 機械学習エンジニア@AIシステム部(2017年〜)
- 強化学習・深層学習を使ったゲームAI研究開発
2
強化学習を使った実ビジネスの応用事例を作っていきたい
モチベーション
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Copyright © DeNA Co.,Ltd. All Rights Reserved.
AIシステム部のご紹介
■ DeNA全社のサービスを対象としたAI研究開発組織
⁃ 各事業部のメンバー・データアナリストと連携しながら事業に貢献
■ 画像 / 自然言語処理・音声認識 / 強化学習・最適化
+他社IP利用の
タイトル多数
ロボネコヤマト®はヤマトホールディングス株式会社の登録商標です
3
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Copyright © DeNA Co.,Ltd. All Rights Reserved.
強化学習とゲームAI
■ 強化学習:環境に適応して自律的に学習する枠組み
OpenAI Universe (accessed 2017-11-16)
https://blog.openai.com/universe/
状態・報酬の観測
意思決定
行動選択
環境との
相互作用
ゲームシミュレータ ゲーム画面・ステータスAPI 学習環境
ゲーム領域は強化学習技術が適用しやすい
シミュレータ環境(箱庭)が用意でき、多くの試行錯誤を繰り返せる 4
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Copyright © DeNA Co.,Ltd. All Rights Reserved.
強化学習チームのゲームAI研究開発の取り組み事例
■ 「FINAL FANTASY Record Keeper」におけるステージ設計支援の検証
■ 「逆転オセロニア」におけるバランス調整・対戦AIの検証(本講演)
強化学習を利用した自律型GameAIの取り組み ~高速自動プレイによるステージ設計支援~
https://www.slideshare.net/dena_tech/gameai-denatechcon
[CEDEC 2016]果たしてAIはRPGをクリアできるのか?AIによるテストプレイでゲームのクオリティを高める技術とは
http://www.4gamer.net/games/265/G026574/20160901121/
5
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Copyright © DeNA Co.,Ltd. All Rights Reserved.
本日の話の流れ
課題の背景1
- 「逆転オセロニア」のご紹介
- AIで解決したいゲーム運用課題
「逆転オセロニア」のAI開発について2
- AI開発のロードマップ
- 学習アーキテクチャのご紹介
- 現在できていること
3 今後に向けて
- ゲームAI開発プロジェクトで難しい点
- AI活用を見越してやっておいた方がいいこと
6
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Copyright © DeNA Co.,Ltd. All Rights Reserved.
本日の話の流れ
課題の背景1
- 「逆転オセロニア」のご紹介
- AIで解決したいゲーム運用課題
「逆転オセロニア」のAI開発について2
- AI開発のロードマップ
- 学習アーキテクチャのご紹介
- 現在できていること
3 今後に向けて
- ゲームAI開発プロジェクトで難しい点
- AI活用を見越してやっておいた方がいいこと
7
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Copyright © DeNA Co.,Ltd. All Rights Reserved.
■ オセロ×TCGをコアゲームに据えたアプリゲーム
⁃ オセロがベースだからルールが「誰でもわかる」
⁃ 後半に「逆転」が巻き起こるゲームシステム
■ 2016年2月 サービスイン後、成長を続けている※
■ 2017年10月 1500万ダウンロード突破
■ ゲーム外環境も盛り上がりをみせている(YouTube、リアルイベント)
「逆転オセロニア」について
8
※ “一周年で爆発した「逆転オセロニア」における、ゲーム分析の貢献事例
〜開発・運営の意思決定を全力でサポートする、DeNAのゲーム分析体制〜”
藤江 清隆 & 奥村 純, CEDEC2017
http://cedil.cesa.or.jp/cedil_sessions/view/1729
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Copyright © DeNA Co.,Ltd. All Rights Reserved.
解決したい課題背景① キャラクタースキルの設計
■ 対戦の遊びを豊かにするために、継続的に新キャラを追加している
⁃ 新キャラ追加頻度:週2,3程度、新スキル追加頻度:2,3ヶ月に1回程度
■ パラメータ調整に失敗すると起こること
⁃ ゲームバランスの毀損、デッキの硬直化、対戦UXの単調化、…
キャラクタースキルのバランス調整を、
「ミスなく」「効率的に」行いたい
9
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Copyright © DeNA Co.,Ltd. All Rights Reserved.
現在の運用:ユーザーログを使ったスキル設計
■ 既存キャラスキルの発動確率と発動実績を分析して、
スキル設計フローに定量的なレビューを導入している
⁃ 新キャラのスキル発動確率と効果分布を推定、適切なパラメータに調整
キャラクター(スキル発動確率順)
ス
キ
ル
ダ
メ
ー
ジ
実
績
(
箱
ひ
げ
図
)
ス
キ
ル
発
動
確
率
(
青
実
線
)
“ログ分析で支えるゲームパラメータ設計”, 奥村純, DeNA TechCon2017
https://www.slideshare.net/dena_tech/denatechcon-72603558 10
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Copyright © DeNA Co.,Ltd. All Rights Reserved.
現在の運用:ユーザーログを使ったスキル設計
■ 既存キャラスキルの発動確率と発動実績を分析して、
スキル設計フローに定量的なレビューを導入している
⁃ 新キャラのスキル発動確率と効果分布を推定、適切なパラメータに調整
キャラクター(スキル発動確率順)
ス
キ
ル
ダ
メ
ー
ジ
実
績
(
箱
ひ
げ
図
)
11
強すぎる
キャラクター
弱すぎる
キャラクター
“ログ分析で支えるゲームパラメータ設計”, 奥村純, DeNA TechCon2017
https://www.slideshare.net/dena_tech/denatechcon-72603558
ス
キ
ル
発
動
確
率
(
青
実
線
)
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Copyright © DeNA Co.,Ltd. All Rights Reserved.
解決したい課題
1. 既存フローでは新しいスキルの評価を正しくできない
⁃ ログがないためどのように運用されるかリリース前に分からない
2. キャラクターの性能をテストするのにかかる工数が大きい
⁃ 1体ずつデッキタイプに応じた運用や効用の推定を行う必要がある
3. どこまでチューニングを続けても見落としリスクがある
⁃ ゲームが複雑になる中で検証していく要素が爆発的に増えていく
12
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Copyright © DeNA Co.,Ltd. All Rights Reserved.
実現できたら嬉しいこと
1. リリース前の新しいスキルでも検証ができること
⁃ 強化学習による自律的なキャラクター運用の学習
2. 大量の検証によって性能を評価できること
⁃ シミュレータを使った大量の自己対戦の実現
3. レアな壊れケースも効率的に検知できること
⁃ 人間のようなリテラシーで合理的に探索する方法の実現
人間のようにプレイし、新環境にも柔軟に対応する、強いAIの実現※
※ 人間のようなプレイ:(ここでは大まかに)非合理的で違和感のある打ち方をしないプレイ
※ 強い:(あるデッキに対して)勝率が高い
13
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Copyright © DeNA Co.,Ltd. All Rights Reserved.
AIが実現できた場合のユースケース
■ キャラの運用を自律的に学んだAIによるQA支援
⁃ シミュレーションによるキャラの性能評価(≒壊れ値検知)
⁃ 効率的なバグ検知の可能性
■ 「人間のように打ち、強い」対戦AIのコンテンツ化
⁃ 初心者の戦略学習支援(指導碁的コンテンツ)
⁃ AIとの対戦コンテンツ
14
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Copyright © DeNA Co.,Ltd. All Rights Reserved.
本日の話の流れ
課題の背景1
- 「逆転オセロニア」のご紹介
- AIで解決したいゲーム運用課題
「逆転オセロニア」のAI開発について2
- AI開発のロードマップ
- 学習アーキテクチャのご紹介
- 現在できていること
3 今後に向けて
- ゲームAI開発プロジェクトで難しい点
- AI活用を見越してやっておいた方がいいこと
15
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Copyright © DeNA Co.,Ltd. All Rights Reserved.
オセロニアAIの研究開発ロードマップ
対応キャラ数
強さ
ルールベースAI
(既存NPC)
ランダムAI
48キャラ
(固定3デッキ)
①教師あり学習
そもそも学習が出来るのか検証
数100キャラ
(定番デッキ)
②表現学習
キャラを拡張できるか検証
トップユーザー
相当
全キャラ~1600体
(新スキル含む)
③強化学習
自律的に強くなるか検証
④先読み機能+チューニング
現実的にどこまで強く出来るか検証
ミドルユーザー
相当
16
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Copyright © DeNA Co.,Ltd. All Rights Reserved.
オセロニアAIの研究開発概要
■ 戦略の表現力を獲得させるためニューラルネットワークとして実装
⁃ 「AlphaGoを参考にした3モジュール」+「表現学習」によって構成
1. 教師あり学習(SLエージェント※)
⁃ 大量の棋譜ログを活用し、人間が実際に打つような指し手を学習
2. 強化学習(RLエージェント※)
⁃ SLエージェントのネットワークを転写して自己対戦によって自律的に学習
⁃ 定期的に仮想の対戦相手ネットワークを更新して徐々に強化
3. 先読み機能(MCTS; Monte Calro Tree Search)
⁃ RLエージェントの推論サポート、学習時の馴れ合い防止
4. 表現学習
⁃ キャラクター運用の分散表現を学習することでキャラ拡張に対応
⁃ 特徴量を減らすことにより学習を効率化&棋譜を有効的に活用
※ SL: Supervised Learning, RL: Reinforcement Learning 17
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Copyright © DeNA Co.,Ltd. All Rights Reserved.
1. 教師あり学習(SLエージェント)
■ 棋譜を使って上位ユーザーの平均戦略を学習
⁃ 空間情報は畳み込みニューラルネットワーク(CNN)で処理
⁃ 行動が動的に変わるため、深層Q学習(DQN)のアーキテクチャを改良
ステータス
手駒
デッキ情報
行動可能手
盤面情報
状態行動価値
(選択確率)
非
空
間
情
報
空
間
情
報
CNN
・・・・・・
・・
・・
全結合層
全結合層
教師あり学習時は
ユーザーの選択/非選択を
教師信号として利用
全結合層
18
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Copyright © DeNA Co.,Ltd. All Rights Reserved.
2. 強化学習(RLエージェント)
■ SLエージェントが学習したネットワーク(上位ユーザーの平均戦略)を
ベースにして、自己対戦による学習を行う
■ 今後、検証していきたいアルゴリズム
⁃ アーキテクチャ:Dueling Net, A3C, PGQ, PCL, FuNs, …
⁃ 状態探索効率化:pseudo-count, PixcelCNN pseudo-count, …
⁃ その他:Prioritized Experience Replay, Inverse RL, …
① ネットワークを転写
SLネットワーク RLネットワーク
② 自己対戦による学習
強さ
自分 相手
(過去の自分)
RL RL
RL
RL
RL
19
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Copyright © DeNA Co.,Ltd. All Rights Reserved.
3. 先読み機能(MCTS; Monte Carlo Tree Search)
■ 現在取りうる行動をそれぞれ試行して算出した行動価値を元に、
次の最適行動を決定する探索的アプローチ
■ 多くの試行を必要とし、シミュレータ速度がボトルネックとなるため、
効率的な探索が必要(e.g. UCT, PUCT, …)
探索ターン
(ルートノード)
自ターン
①ある局面から、取りうる行動を試行
敵ターン
自ターン
バトル終了
…
②行動選択後は、敵ターン含め
バトル終了までプレイアウトを行う
③終了時の状態を行動選択の評価値とし、
これを繰り返すことで統計量を算出する
20
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Copyright © DeNA Co.,Ltd. All Rights Reserved.
4. 表現学習
■ 背景
⁃ 各キャラを区別すると入力情報が膨大になってまう
⁃ 似たような運用方法のキャラは同じように学習したい
■ AI訓練時にキャラ情報を低次元に埋め込む学習器を用意
⁃ 「角に置きたい」「フィニッシャーとして使いたい」といったキャラの
運用方法を低次元のベクトルとして表現することが可能になった
1 0 0 0 … 0 0 0
0 1 0 0 … 0 0 0
~1,600次元(キャラID数分)
…
0.68 -0.12 1.73 0.02 0.98
数次元
…
-0.32 0.07 0.56 0.03 0.11
埋め込み前 埋め込み後
キャラを表現するのに、
キャラ数に応じたベクトルが必要
キャラをより低次元で表現可能
似たような使い方のキャラは似たようなベクトルに
21
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Copyright © DeNA Co.,Ltd. All Rights Reserved.
現在できていること(教師あり学習)
■ 固定デッキ(神・魔・竜)で教師あり学習を検証
⁃ 48キャラ、3デッキ
■ 既存NPC(ルールベースAI)に対して高い勝率が出せている
⁃ 固定デッキであればミドルユーザーレベルの立ち回りは可能
竜デッキ
魔デッキ
神デッキ
50.9% → 98.0%
49.0% → 90.0%
48.5% → 91.1%
既存NPC同士の勝率※1 教師学習済AIと既存NPCの勝率※2
※1: 定義上、期待値は50%。1,000バトルによる検証結果。
※2: 1,000バトルによる検証結果。 22
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Copyright © DeNA Co.,Ltd. All Rights Reserved.
現在できていること(表現学習)
■ 表現学習によって、キャラやデッキタイプを拡張性しても学習可能に
⁃ 17デッキ(275キャラ)の同デッキ対戦で平均80%程度の勝率※
⁃ 学習が難しいデッキに対しても一定の勝率が出るようチューニング中
神(試)
竜(試)
魔(試)
竜3(定)
竜2(定)
竜1(定)
魔1(定)
魔2(定)
魔3(定)
神3(定)
神2(定)
神1(定)
混2(定)
混3(定)
混1(定)
全2(定)
全1(定)
神(試)
竜(試)
魔(試)
竜3(定)
竜2(定)
竜1(定)
魔1(定)
魔2(定)
魔3(定)
神3(定)
神2(定)
神1(定)
混2(定)
混3(定)
混1(定)
全2(定)
全1(定)
勝率(%)
AI
既存NPC(ルールベースAI) 23
※学習環境の勝率(実際のデッキ相性を表現するものではありません)
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Copyright © DeNA Co.,Ltd. All Rights Reserved.
特殊ダメージ
竜
マス変換
罠毒カウンター
アンデッド
召喚
回復
オーバー
ロード
吸収
2枚
以上
2枚
以上
表現学習で得られる表現の例
24
キャラ表現を3次元に縮減してプロットした例※
(戦略に応じた表現が得られていることが分かる)
※AIの学習過程の図でゲーム戦略の完全な表現を保証するものではありません
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Copyright © DeNA Co.,Ltd. All Rights Reserved.
現在できていること(強化学習、先読み機能)
■ 強化学習
⁃ 簡単なon-policy, off-policyアルゴリズムの検証が完了
⁃ 学習による勝率の上昇を確認、現在チューニング中
■ 先読み機能(MCTS)
⁃ 初期の実装検証が完了
⁃ 高速化を目指して様々な探索アルゴリズムを実験中
今後は研究開発を継続してフィージビリティを確認
実用に耐えるエージェントができ次第サービスインを検討
25
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Copyright © DeNA Co.,Ltd. All Rights Reserved.
本日の話の流れ
課題の背景1
- 「逆転オセロニア」のご紹介
- AIで解決したいゲーム運用課題
「逆転オセロニア」のAI開発について2
- AI開発のロードマップ
- 学習アーキテクチャのご紹介
- 現在できていること
3 今後に向けて
- ゲームAI開発プロジェクトで難しい点
- AI活用を見越してやっておいた方がいいこと
26
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Copyright © DeNA Co.,Ltd. All Rights Reserved.
アプリゲームで強化学習を応用する難しさ
1. 環境の構築が大変
⁃ Atari 2600などのベンチマークタスクは強化学習で扱いやすい学習環境
(ALE, OpenAI gym, …)が存在するが、これを0から作る必要がある
⁃ 状態表現はドメイン特有なものになるため特徴量エンジニアリングが複雑
• 経過ターン数, 盤面のスキル情報(毒, 時限スキル, …), 召喚駒…
2. シミュレータ速度がボトルネックになる
⁃ 多くの試行をするために応答をどれだけ高速化できるかが鍵
3. 実利用に際してアーキテクチャの検討・発明が必要
⁃ AIモデルをクライアント/サーバのどちらに持たせるか
⁃ 最新のゲーム環境に追従したシミュレータの更新方法
⁃ 大量のリクエストを捌くための推論やメモリ管理の効率化
27
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Copyright © DeNA Co.,Ltd. All Rights Reserved.
AI活用を見越してやっておいたほうがいいこと
1. AIの学習を念頭に置いたログの設計
⁃ ユーザー行動分析のためのログとは別に、
AIが学習するためのログを事前に定義・実装しておく必要がある
2. シミュレータ開発
⁃ バトルロジックのみを切り離しやすいような設計
⁃ 高速化を念頭に入れた最適化
3. 最新技術に追従する体制作り
⁃ 強化学習・深層学習領域の技術アップデートは非常に早く、
最新アルゴリズムをキャッチアップして実装できるようなチームが必要
4. 現場とのコミュニケーション
⁃ 現場だけでは「AIで何ができるか」が分からないこともある
⁃ 課題を適切に定義したり企画を提案したりするサービス理解と、
現場との密なコミュニケーションが必要
28
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Copyright © DeNA Co.,Ltd. All Rights Reserved.
アプリゲームで強化学習を応用する嬉しさ
■ ゲーム環境という「箱庭」で研究開発ができる
⁃ Atariや囲碁といったゲームとは異なる、より複雑なゲーム環境で、
様々なアルゴリズムを検証できる
⁃ 論文通りの実装をしても上手くいかないことが多く、試行錯誤を通じて
実課題への適用に関する知見が集約されている
■ 強化学習におけるビジネスケースを示せる
⁃ 強化学習はビジネスアプリケーションが比較的困難な領域
⁃ 比較的に適用しやすいゲーム事業で0→1のケースを生み出し続けたい
29
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Copyright © DeNA Co.,Ltd. All Rights Reserved.
ご清聴ありがとうございました

More Related Content

What's hot

【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展Deep Learning JP
 
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめたKatsuya Ito
 
学習時に使ってはいないデータの混入「リーケージを避ける」
学習時に使ってはいないデータの混入「リーケージを避ける」学習時に使ってはいないデータの混入「リーケージを避ける」
学習時に使ってはいないデータの混入「リーケージを避ける」西岡 賢一郎
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!TransformerArithmer Inc.
 
画像処理AIを用いた異常検知
画像処理AIを用いた異常検知画像処理AIを用いた異常検知
画像処理AIを用いた異常検知Hideo Terada
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイDeep Learning JP
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心Shota Imai
 
強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類佑 甲野
 
機械学習応用システムの安全性の研究動向と今後の展望
機械学習応用システムの安全性の研究動向と今後の展望機械学習応用システムの安全性の研究動向と今後の展望
機械学習応用システムの安全性の研究動向と今後の展望Nobukazu Yoshioka
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Yoshitaka Ushiku
 
NIPS2017読み会@PFN: Hierarchical Reinforcement Learning + α
NIPS2017読み会@PFN: Hierarchical Reinforcement Learning + αNIPS2017読み会@PFN: Hierarchical Reinforcement Learning + α
NIPS2017読み会@PFN: Hierarchical Reinforcement Learning + α佑 甲野
 
差分プライバシーとは何か? (定義 & 解釈編)
差分プライバシーとは何か? (定義 & 解釈編)差分プライバシーとは何か? (定義 & 解釈編)
差分プライバシーとは何か? (定義 & 解釈編)Kentaro Minami
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説tancoro
 
強化学習その3
強化学習その3強化学習その3
強化学習その3nishio
 
Active Learning の基礎と最近の研究
Active Learning の基礎と最近の研究Active Learning の基礎と最近の研究
Active Learning の基礎と最近の研究Fumihiko Takahashi
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)Satoshi Hara
 
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)Shota Imai
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習Eiji Uchibe
 

What's hot (20)

【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
 
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
 
学習時に使ってはいないデータの混入「リーケージを避ける」
学習時に使ってはいないデータの混入「リーケージを避ける」学習時に使ってはいないデータの混入「リーケージを避ける」
学習時に使ってはいないデータの混入「リーケージを避ける」
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
画像処理AIを用いた異常検知
画像処理AIを用いた異常検知画像処理AIを用いた異常検知
画像処理AIを用いた異常検知
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心
 
強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類
 
機械学習応用システムの安全性の研究動向と今後の展望
機械学習応用システムの安全性の研究動向と今後の展望機械学習応用システムの安全性の研究動向と今後の展望
機械学習応用システムの安全性の研究動向と今後の展望
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
 
NIPS2017読み会@PFN: Hierarchical Reinforcement Learning + α
NIPS2017読み会@PFN: Hierarchical Reinforcement Learning + αNIPS2017読み会@PFN: Hierarchical Reinforcement Learning + α
NIPS2017読み会@PFN: Hierarchical Reinforcement Learning + α
 
差分プライバシーとは何か? (定義 & 解釈編)
差分プライバシーとは何か? (定義 & 解釈編)差分プライバシーとは何か? (定義 & 解釈編)
差分プライバシーとは何か? (定義 & 解釈編)
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説
 
BlackBox モデルの説明性・解釈性技術の実装
BlackBox モデルの説明性・解釈性技術の実装BlackBox モデルの説明性・解釈性技術の実装
BlackBox モデルの説明性・解釈性技術の実装
 
強化学習その3
強化学習その3強化学習その3
強化学習その3
 
Active Learning の基礎と最近の研究
Active Learning の基礎と最近の研究Active Learning の基礎と最近の研究
Active Learning の基礎と最近の研究
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
 
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
 
深層強化学習と実装例
深層強化学習と実装例深層強化学習と実装例
深層強化学習と実装例
 

Similar to ゲーム体験を支える強化学習の実応用について

運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]
運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]
運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]DeNA
 
Einsteinvision - object detection を試してみよう
Einsteinvision - object detection を試してみようEinsteinvision - object detection を試してみよう
Einsteinvision - object detection を試してみようSalesforce Developers Japan
 
ICLR読み会 奥村純 20170617
ICLR読み会 奥村純 20170617ICLR読み会 奥村純 20170617
ICLR読み会 奥村純 20170617Jun Okumura
 
強化学習技術とゲーム AI 〜 今できる事と今後できて欲しい事 〜
強化学習技術とゲーム AI  〜 今できる事と今後できて欲しい事 〜強化学習技術とゲーム AI  〜 今できる事と今後できて欲しい事 〜
強化学習技術とゲーム AI 〜 今できる事と今後できて欲しい事 〜佑 甲野
 
ログ分析で支えるゲームパラメータ設計 #denatechcon
ログ分析で支えるゲームパラメータ設計 #denatechconログ分析で支えるゲームパラメータ設計 #denatechcon
ログ分析で支えるゲームパラメータ設計 #denatechconDeNA
 
「スプラトゥーン」リアルタイム画像解析ツール 「IkaLog」の裏側
「スプラトゥーン」リアルタイム画像解析ツール 「IkaLog」の裏側「スプラトゥーン」リアルタイム画像解析ツール 「IkaLog」の裏側
「スプラトゥーン」リアルタイム画像解析ツール 「IkaLog」の裏側Takeshi HASEGAWA
 
DeNAのプログラミング教育の取り組み #denatechcon
DeNAのプログラミング教育の取り組み #denatechconDeNAのプログラミング教育の取り組み #denatechcon
DeNAのプログラミング教育の取り組み #denatechconDeNA
 
オリジナル社内ツールの末路
オリジナル社内ツールの末路オリジナル社内ツールの末路
オリジナル社内ツールの末路Kiyotaka Kunihira
 
なぜ私たちは「効率化」を目指すのか(DeNA Games Tokyo)
なぜ私たちは「効率化」を目指すのか(DeNA Games Tokyo)なぜ私たちは「効率化」を目指すのか(DeNA Games Tokyo)
なぜ私たちは「効率化」を目指すのか(DeNA Games Tokyo)DeNA Games Tokyo
 
文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition
文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition
文献紹介:Elaborative Rehearsal for Zero-Shot Action RecognitionToru Tamaki
 
「機械学習とは?」から始める Deep learning実践入門
「機械学習とは?」から始める Deep learning実践入門「機械学習とは?」から始める Deep learning実践入門
「機械学習とは?」から始める Deep learning実践入門Hideto Masuoka
 
Azure Object Anchors のQuick Startで理解を深めたい
Azure Object Anchors のQuick Startで理解を深めたいAzure Object Anchors のQuick Startで理解を深めたい
Azure Object Anchors のQuick Startで理解を深めたいTakahiro Miyaura
 
リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介Recruit Technologies
 
Webリソースを利用したDeep Learning ~地図タイルを例として
Webリソースを利用したDeep Learning  ~地図タイルを例としてWebリソースを利用したDeep Learning  ~地図タイルを例として
Webリソースを利用したDeep Learning ~地図タイルを例としてIWASAKI NOBUSUKE
 
Introducing the elastic 8.0 release a new era of speed, scale, relevance, and...
Introducing the elastic 8.0 release a new era of speed, scale, relevance, and...Introducing the elastic 8.0 release a new era of speed, scale, relevance, and...
Introducing the elastic 8.0 release a new era of speed, scale, relevance, and...Shotaro Suzuki
 
ソフトウエアジャパン2017 IT Forum AITC(2)
ソフトウエアジャパン2017 IT Forum AITC(2)ソフトウエアジャパン2017 IT Forum AITC(2)
ソフトウエアジャパン2017 IT Forum AITC(2)aitc_jp
 
ドライブレコーダーの Scene Text Recognitionにおける Multi-task Learning
ドライブレコーダーの Scene Text Recognitionにおける Multi-task Learningドライブレコーダーの Scene Text Recognitionにおける Multi-task Learning
ドライブレコーダーの Scene Text Recognitionにおける Multi-task LearningFumihiko Takahashi
 
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1Shunsuke Nakamura
 

Similar to ゲーム体験を支える強化学習の実応用について (20)

運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]
運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]
運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]
 
Einsteinvision - object detection を試してみよう
Einsteinvision - object detection を試してみようEinsteinvision - object detection を試してみよう
Einsteinvision - object detection を試してみよう
 
ICLR読み会 奥村純 20170617
ICLR読み会 奥村純 20170617ICLR読み会 奥村純 20170617
ICLR読み会 奥村純 20170617
 
強化学習技術とゲーム AI 〜 今できる事と今後できて欲しい事 〜
強化学習技術とゲーム AI  〜 今できる事と今後できて欲しい事 〜強化学習技術とゲーム AI  〜 今できる事と今後できて欲しい事 〜
強化学習技術とゲーム AI 〜 今できる事と今後できて欲しい事 〜
 
ログ分析で支えるゲームパラメータ設計 #denatechcon
ログ分析で支えるゲームパラメータ設計 #denatechconログ分析で支えるゲームパラメータ設計 #denatechcon
ログ分析で支えるゲームパラメータ設計 #denatechcon
 
「スプラトゥーン」リアルタイム画像解析ツール 「IkaLog」の裏側
「スプラトゥーン」リアルタイム画像解析ツール 「IkaLog」の裏側「スプラトゥーン」リアルタイム画像解析ツール 「IkaLog」の裏側
「スプラトゥーン」リアルタイム画像解析ツール 「IkaLog」の裏側
 
DeNAのプログラミング教育の取り組み #denatechcon
DeNAのプログラミング教育の取り組み #denatechconDeNAのプログラミング教育の取り組み #denatechcon
DeNAのプログラミング教育の取り組み #denatechcon
 
オリジナル社内ツールの末路
オリジナル社内ツールの末路オリジナル社内ツールの末路
オリジナル社内ツールの末路
 
なぜ私たちは「効率化」を目指すのか(DeNA Games Tokyo)
なぜ私たちは「効率化」を目指すのか(DeNA Games Tokyo)なぜ私たちは「効率化」を目指すのか(DeNA Games Tokyo)
なぜ私たちは「効率化」を目指すのか(DeNA Games Tokyo)
 
文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition
文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition
文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition
 
「機械学習とは?」から始める Deep learning実践入門
「機械学習とは?」から始める Deep learning実践入門「機械学習とは?」から始める Deep learning実践入門
「機械学習とは?」から始める Deep learning実践入門
 
Custom Vision
Custom VisionCustom Vision
Custom Vision
 
Azure Object Anchors のQuick Startで理解を深めたい
Azure Object Anchors のQuick Startで理解を深めたいAzure Object Anchors のQuick Startで理解を深めたい
Azure Object Anchors のQuick Startで理解を深めたい
 
リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介
 
Webリソースを利用したDeep Learning ~地図タイルを例として
Webリソースを利用したDeep Learning  ~地図タイルを例としてWebリソースを利用したDeep Learning  ~地図タイルを例として
Webリソースを利用したDeep Learning ~地図タイルを例として
 
Introducing the elastic 8.0 release a new era of speed, scale, relevance, and...
Introducing the elastic 8.0 release a new era of speed, scale, relevance, and...Introducing the elastic 8.0 release a new era of speed, scale, relevance, and...
Introducing the elastic 8.0 release a new era of speed, scale, relevance, and...
 
ソフトウエアジャパン2017 IT Forum AITC(2)
ソフトウエアジャパン2017 IT Forum AITC(2)ソフトウエアジャパン2017 IT Forum AITC(2)
ソフトウエアジャパン2017 IT Forum AITC(2)
 
ドライブレコーダーの Scene Text Recognitionにおける Multi-task Learning
ドライブレコーダーの Scene Text Recognitionにおける Multi-task Learningドライブレコーダーの Scene Text Recognitionにおける Multi-task Learning
ドライブレコーダーの Scene Text Recognitionにおける Multi-task Learning
 
Spiral.AI採用Deck
Spiral.AI採用DeckSpiral.AI採用Deck
Spiral.AI採用Deck
 
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1
 

More from Jun Okumura

Applying AI in Games (GDC2019)
Applying AI in Games (GDC2019)Applying AI in Games (GDC2019)
Applying AI in Games (GDC2019)Jun Okumura
 
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜Jun Okumura
 
CEDEC2018『逆転オセロニア』におけるAI活用
CEDEC2018『逆転オセロニア』におけるAI活用CEDEC2018『逆転オセロニア』におけるAI活用
CEDEC2018『逆転オセロニア』におけるAI活用Jun Okumura
 
論文紹介:”Playing hard exploration games by watching YouTube“
論文紹介:”Playing hard exploration games by watching YouTube“論文紹介:”Playing hard exploration games by watching YouTube“
論文紹介:”Playing hard exploration games by watching YouTube“Jun Okumura
 
ICLR2018読み会@PFN 論文紹介:Intrinsic Motivation and Automatic Curricula via Asymmet...
ICLR2018読み会@PFN 論文紹介:Intrinsic Motivation and Automatic Curricula via Asymmet...ICLR2018読み会@PFN 論文紹介:Intrinsic Motivation and Automatic Curricula via Asymmet...
ICLR2018読み会@PFN 論文紹介:Intrinsic Motivation and Automatic Curricula via Asymmet...Jun Okumura
 
DeNA TechCon2018 ゲーム体験を支えるための強化学習
DeNA TechCon2018 ゲーム体験を支えるための強化学習DeNA TechCon2018 ゲーム体験を支えるための強化学習
DeNA TechCon2018 ゲーム体験を支えるための強化学習Jun Okumura
 
ポーカーAIの最新動向 20171031
ポーカーAIの最新動向 20171031ポーカーAIの最新動向 20171031
ポーカーAIの最新動向 20171031Jun Okumura
 
Young Pioneer Presentation #4 〜普遍的な美〜
Young Pioneer Presentation #4 〜普遍的な美〜Young Pioneer Presentation #4 〜普遍的な美〜
Young Pioneer Presentation #4 〜普遍的な美〜Jun Okumura
 

More from Jun Okumura (8)

Applying AI in Games (GDC2019)
Applying AI in Games (GDC2019)Applying AI in Games (GDC2019)
Applying AI in Games (GDC2019)
 
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
 
CEDEC2018『逆転オセロニア』におけるAI活用
CEDEC2018『逆転オセロニア』におけるAI活用CEDEC2018『逆転オセロニア』におけるAI活用
CEDEC2018『逆転オセロニア』におけるAI活用
 
論文紹介:”Playing hard exploration games by watching YouTube“
論文紹介:”Playing hard exploration games by watching YouTube“論文紹介:”Playing hard exploration games by watching YouTube“
論文紹介:”Playing hard exploration games by watching YouTube“
 
ICLR2018読み会@PFN 論文紹介:Intrinsic Motivation and Automatic Curricula via Asymmet...
ICLR2018読み会@PFN 論文紹介:Intrinsic Motivation and Automatic Curricula via Asymmet...ICLR2018読み会@PFN 論文紹介:Intrinsic Motivation and Automatic Curricula via Asymmet...
ICLR2018読み会@PFN 論文紹介:Intrinsic Motivation and Automatic Curricula via Asymmet...
 
DeNA TechCon2018 ゲーム体験を支えるための強化学習
DeNA TechCon2018 ゲーム体験を支えるための強化学習DeNA TechCon2018 ゲーム体験を支えるための強化学習
DeNA TechCon2018 ゲーム体験を支えるための強化学習
 
ポーカーAIの最新動向 20171031
ポーカーAIの最新動向 20171031ポーカーAIの最新動向 20171031
ポーカーAIの最新動向 20171031
 
Young Pioneer Presentation #4 〜普遍的な美〜
Young Pioneer Presentation #4 〜普遍的な美〜Young Pioneer Presentation #4 〜普遍的な美〜
Young Pioneer Presentation #4 〜普遍的な美〜
 

Recently uploaded

自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成Hiroshi Tomioka
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 

Recently uploaded (9)

自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 

ゲーム体験を支える強化学習の実応用について

  • 1. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. ゲーム体験を支える強化学習の実応用について SHIBUYA Synapse #2 November 23, 2017 Jun Ernesto Okumura Yu Kono Ikki Tanaka AI System Dept. DeNA Co., Ltd.
  • 2. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Copyright © DeNA Co.,Ltd. All Rights Reserved. 自己紹介 名前 奥村 エルネスト 純(@pacocat) 経歴(2017/11時点) 宇宙物理学 Ph.D → DeNA入社(2014年) → データアナリスト@分析部(〜2016年) - ゲームデータ分析、ゲームパラメータデザイン → 機械学習エンジニア@AIシステム部(2017年〜) - 強化学習・深層学習を使ったゲームAI研究開発 2 強化学習を使った実ビジネスの応用事例を作っていきたい モチベーション
  • 3. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Copyright © DeNA Co.,Ltd. All Rights Reserved. AIシステム部のご紹介 ■ DeNA全社のサービスを対象としたAI研究開発組織 ⁃ 各事業部のメンバー・データアナリストと連携しながら事業に貢献 ■ 画像 / 自然言語処理・音声認識 / 強化学習・最適化 +他社IP利用の タイトル多数 ロボネコヤマト®はヤマトホールディングス株式会社の登録商標です 3
  • 4. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Copyright © DeNA Co.,Ltd. All Rights Reserved. 強化学習とゲームAI ■ 強化学習:環境に適応して自律的に学習する枠組み OpenAI Universe (accessed 2017-11-16) https://blog.openai.com/universe/ 状態・報酬の観測 意思決定 行動選択 環境との 相互作用 ゲームシミュレータ ゲーム画面・ステータスAPI 学習環境 ゲーム領域は強化学習技術が適用しやすい シミュレータ環境(箱庭)が用意でき、多くの試行錯誤を繰り返せる 4
  • 5. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Copyright © DeNA Co.,Ltd. All Rights Reserved. 強化学習チームのゲームAI研究開発の取り組み事例 ■ 「FINAL FANTASY Record Keeper」におけるステージ設計支援の検証 ■ 「逆転オセロニア」におけるバランス調整・対戦AIの検証(本講演) 強化学習を利用した自律型GameAIの取り組み ~高速自動プレイによるステージ設計支援~ https://www.slideshare.net/dena_tech/gameai-denatechcon [CEDEC 2016]果たしてAIはRPGをクリアできるのか?AIによるテストプレイでゲームのクオリティを高める技術とは http://www.4gamer.net/games/265/G026574/20160901121/ 5
  • 6. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Copyright © DeNA Co.,Ltd. All Rights Reserved. 本日の話の流れ 課題の背景1 - 「逆転オセロニア」のご紹介 - AIで解決したいゲーム運用課題 「逆転オセロニア」のAI開発について2 - AI開発のロードマップ - 学習アーキテクチャのご紹介 - 現在できていること 3 今後に向けて - ゲームAI開発プロジェクトで難しい点 - AI活用を見越してやっておいた方がいいこと 6
  • 7. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Copyright © DeNA Co.,Ltd. All Rights Reserved. 本日の話の流れ 課題の背景1 - 「逆転オセロニア」のご紹介 - AIで解決したいゲーム運用課題 「逆転オセロニア」のAI開発について2 - AI開発のロードマップ - 学習アーキテクチャのご紹介 - 現在できていること 3 今後に向けて - ゲームAI開発プロジェクトで難しい点 - AI活用を見越してやっておいた方がいいこと 7
  • 8. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Copyright © DeNA Co.,Ltd. All Rights Reserved. ■ オセロ×TCGをコアゲームに据えたアプリゲーム ⁃ オセロがベースだからルールが「誰でもわかる」 ⁃ 後半に「逆転」が巻き起こるゲームシステム ■ 2016年2月 サービスイン後、成長を続けている※ ■ 2017年10月 1500万ダウンロード突破 ■ ゲーム外環境も盛り上がりをみせている(YouTube、リアルイベント) 「逆転オセロニア」について 8 ※ “一周年で爆発した「逆転オセロニア」における、ゲーム分析の貢献事例 〜開発・運営の意思決定を全力でサポートする、DeNAのゲーム分析体制〜” 藤江 清隆 & 奥村 純, CEDEC2017 http://cedil.cesa.or.jp/cedil_sessions/view/1729
  • 9. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Copyright © DeNA Co.,Ltd. All Rights Reserved. 解決したい課題背景① キャラクタースキルの設計 ■ 対戦の遊びを豊かにするために、継続的に新キャラを追加している ⁃ 新キャラ追加頻度:週2,3程度、新スキル追加頻度:2,3ヶ月に1回程度 ■ パラメータ調整に失敗すると起こること ⁃ ゲームバランスの毀損、デッキの硬直化、対戦UXの単調化、… キャラクタースキルのバランス調整を、 「ミスなく」「効率的に」行いたい 9
  • 10. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Copyright © DeNA Co.,Ltd. All Rights Reserved. 現在の運用:ユーザーログを使ったスキル設計 ■ 既存キャラスキルの発動確率と発動実績を分析して、 スキル設計フローに定量的なレビューを導入している ⁃ 新キャラのスキル発動確率と効果分布を推定、適切なパラメータに調整 キャラクター(スキル発動確率順) ス キ ル ダ メ ー ジ 実 績 ( 箱 ひ げ 図 ) ス キ ル 発 動 確 率 ( 青 実 線 ) “ログ分析で支えるゲームパラメータ設計”, 奥村純, DeNA TechCon2017 https://www.slideshare.net/dena_tech/denatechcon-72603558 10
  • 11. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Copyright © DeNA Co.,Ltd. All Rights Reserved. 現在の運用:ユーザーログを使ったスキル設計 ■ 既存キャラスキルの発動確率と発動実績を分析して、 スキル設計フローに定量的なレビューを導入している ⁃ 新キャラのスキル発動確率と効果分布を推定、適切なパラメータに調整 キャラクター(スキル発動確率順) ス キ ル ダ メ ー ジ 実 績 ( 箱 ひ げ 図 ) 11 強すぎる キャラクター 弱すぎる キャラクター “ログ分析で支えるゲームパラメータ設計”, 奥村純, DeNA TechCon2017 https://www.slideshare.net/dena_tech/denatechcon-72603558 ス キ ル 発 動 確 率 ( 青 実 線 )
  • 12. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Copyright © DeNA Co.,Ltd. All Rights Reserved. 解決したい課題 1. 既存フローでは新しいスキルの評価を正しくできない ⁃ ログがないためどのように運用されるかリリース前に分からない 2. キャラクターの性能をテストするのにかかる工数が大きい ⁃ 1体ずつデッキタイプに応じた運用や効用の推定を行う必要がある 3. どこまでチューニングを続けても見落としリスクがある ⁃ ゲームが複雑になる中で検証していく要素が爆発的に増えていく 12
  • 13. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Copyright © DeNA Co.,Ltd. All Rights Reserved. 実現できたら嬉しいこと 1. リリース前の新しいスキルでも検証ができること ⁃ 強化学習による自律的なキャラクター運用の学習 2. 大量の検証によって性能を評価できること ⁃ シミュレータを使った大量の自己対戦の実現 3. レアな壊れケースも効率的に検知できること ⁃ 人間のようなリテラシーで合理的に探索する方法の実現 人間のようにプレイし、新環境にも柔軟に対応する、強いAIの実現※ ※ 人間のようなプレイ:(ここでは大まかに)非合理的で違和感のある打ち方をしないプレイ ※ 強い:(あるデッキに対して)勝率が高い 13
  • 14. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Copyright © DeNA Co.,Ltd. All Rights Reserved. AIが実現できた場合のユースケース ■ キャラの運用を自律的に学んだAIによるQA支援 ⁃ シミュレーションによるキャラの性能評価(≒壊れ値検知) ⁃ 効率的なバグ検知の可能性 ■ 「人間のように打ち、強い」対戦AIのコンテンツ化 ⁃ 初心者の戦略学習支援(指導碁的コンテンツ) ⁃ AIとの対戦コンテンツ 14
  • 15. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Copyright © DeNA Co.,Ltd. All Rights Reserved. 本日の話の流れ 課題の背景1 - 「逆転オセロニア」のご紹介 - AIで解決したいゲーム運用課題 「逆転オセロニア」のAI開発について2 - AI開発のロードマップ - 学習アーキテクチャのご紹介 - 現在できていること 3 今後に向けて - ゲームAI開発プロジェクトで難しい点 - AI活用を見越してやっておいた方がいいこと 15
  • 16. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Copyright © DeNA Co.,Ltd. All Rights Reserved. オセロニアAIの研究開発ロードマップ 対応キャラ数 強さ ルールベースAI (既存NPC) ランダムAI 48キャラ (固定3デッキ) ①教師あり学習 そもそも学習が出来るのか検証 数100キャラ (定番デッキ) ②表現学習 キャラを拡張できるか検証 トップユーザー 相当 全キャラ~1600体 (新スキル含む) ③強化学習 自律的に強くなるか検証 ④先読み機能+チューニング 現実的にどこまで強く出来るか検証 ミドルユーザー 相当 16
  • 17. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Copyright © DeNA Co.,Ltd. All Rights Reserved. オセロニアAIの研究開発概要 ■ 戦略の表現力を獲得させるためニューラルネットワークとして実装 ⁃ 「AlphaGoを参考にした3モジュール」+「表現学習」によって構成 1. 教師あり学習(SLエージェント※) ⁃ 大量の棋譜ログを活用し、人間が実際に打つような指し手を学習 2. 強化学習(RLエージェント※) ⁃ SLエージェントのネットワークを転写して自己対戦によって自律的に学習 ⁃ 定期的に仮想の対戦相手ネットワークを更新して徐々に強化 3. 先読み機能(MCTS; Monte Calro Tree Search) ⁃ RLエージェントの推論サポート、学習時の馴れ合い防止 4. 表現学習 ⁃ キャラクター運用の分散表現を学習することでキャラ拡張に対応 ⁃ 特徴量を減らすことにより学習を効率化&棋譜を有効的に活用 ※ SL: Supervised Learning, RL: Reinforcement Learning 17
  • 18. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Copyright © DeNA Co.,Ltd. All Rights Reserved. 1. 教師あり学習(SLエージェント) ■ 棋譜を使って上位ユーザーの平均戦略を学習 ⁃ 空間情報は畳み込みニューラルネットワーク(CNN)で処理 ⁃ 行動が動的に変わるため、深層Q学習(DQN)のアーキテクチャを改良 ステータス 手駒 デッキ情報 行動可能手 盤面情報 状態行動価値 (選択確率) 非 空 間 情 報 空 間 情 報 CNN ・・・・・・ ・・ ・・ 全結合層 全結合層 教師あり学習時は ユーザーの選択/非選択を 教師信号として利用 全結合層 18
  • 19. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Copyright © DeNA Co.,Ltd. All Rights Reserved. 2. 強化学習(RLエージェント) ■ SLエージェントが学習したネットワーク(上位ユーザーの平均戦略)を ベースにして、自己対戦による学習を行う ■ 今後、検証していきたいアルゴリズム ⁃ アーキテクチャ:Dueling Net, A3C, PGQ, PCL, FuNs, … ⁃ 状態探索効率化:pseudo-count, PixcelCNN pseudo-count, … ⁃ その他:Prioritized Experience Replay, Inverse RL, … ① ネットワークを転写 SLネットワーク RLネットワーク ② 自己対戦による学習 強さ 自分 相手 (過去の自分) RL RL RL RL RL 19
  • 20. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Copyright © DeNA Co.,Ltd. All Rights Reserved. 3. 先読み機能(MCTS; Monte Carlo Tree Search) ■ 現在取りうる行動をそれぞれ試行して算出した行動価値を元に、 次の最適行動を決定する探索的アプローチ ■ 多くの試行を必要とし、シミュレータ速度がボトルネックとなるため、 効率的な探索が必要(e.g. UCT, PUCT, …) 探索ターン (ルートノード) 自ターン ①ある局面から、取りうる行動を試行 敵ターン 自ターン バトル終了 … ②行動選択後は、敵ターン含め バトル終了までプレイアウトを行う ③終了時の状態を行動選択の評価値とし、 これを繰り返すことで統計量を算出する 20
  • 21. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Copyright © DeNA Co.,Ltd. All Rights Reserved. 4. 表現学習 ■ 背景 ⁃ 各キャラを区別すると入力情報が膨大になってまう ⁃ 似たような運用方法のキャラは同じように学習したい ■ AI訓練時にキャラ情報を低次元に埋め込む学習器を用意 ⁃ 「角に置きたい」「フィニッシャーとして使いたい」といったキャラの 運用方法を低次元のベクトルとして表現することが可能になった 1 0 0 0 … 0 0 0 0 1 0 0 … 0 0 0 ~1,600次元(キャラID数分) … 0.68 -0.12 1.73 0.02 0.98 数次元 … -0.32 0.07 0.56 0.03 0.11 埋め込み前 埋め込み後 キャラを表現するのに、 キャラ数に応じたベクトルが必要 キャラをより低次元で表現可能 似たような使い方のキャラは似たようなベクトルに 21
  • 22. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Copyright © DeNA Co.,Ltd. All Rights Reserved. 現在できていること(教師あり学習) ■ 固定デッキ(神・魔・竜)で教師あり学習を検証 ⁃ 48キャラ、3デッキ ■ 既存NPC(ルールベースAI)に対して高い勝率が出せている ⁃ 固定デッキであればミドルユーザーレベルの立ち回りは可能 竜デッキ 魔デッキ 神デッキ 50.9% → 98.0% 49.0% → 90.0% 48.5% → 91.1% 既存NPC同士の勝率※1 教師学習済AIと既存NPCの勝率※2 ※1: 定義上、期待値は50%。1,000バトルによる検証結果。 ※2: 1,000バトルによる検証結果。 22
  • 23. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Copyright © DeNA Co.,Ltd. All Rights Reserved. 現在できていること(表現学習) ■ 表現学習によって、キャラやデッキタイプを拡張性しても学習可能に ⁃ 17デッキ(275キャラ)の同デッキ対戦で平均80%程度の勝率※ ⁃ 学習が難しいデッキに対しても一定の勝率が出るようチューニング中 神(試) 竜(試) 魔(試) 竜3(定) 竜2(定) 竜1(定) 魔1(定) 魔2(定) 魔3(定) 神3(定) 神2(定) 神1(定) 混2(定) 混3(定) 混1(定) 全2(定) 全1(定) 神(試) 竜(試) 魔(試) 竜3(定) 竜2(定) 竜1(定) 魔1(定) 魔2(定) 魔3(定) 神3(定) 神2(定) 神1(定) 混2(定) 混3(定) 混1(定) 全2(定) 全1(定) 勝率(%) AI 既存NPC(ルールベースAI) 23 ※学習環境の勝率(実際のデッキ相性を表現するものではありません)
  • 24. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Copyright © DeNA Co.,Ltd. All Rights Reserved. 特殊ダメージ 竜 マス変換 罠毒カウンター アンデッド 召喚 回復 オーバー ロード 吸収 2枚 以上 2枚 以上 表現学習で得られる表現の例 24 キャラ表現を3次元に縮減してプロットした例※ (戦略に応じた表現が得られていることが分かる) ※AIの学習過程の図でゲーム戦略の完全な表現を保証するものではありません
  • 25. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Copyright © DeNA Co.,Ltd. All Rights Reserved. 現在できていること(強化学習、先読み機能) ■ 強化学習 ⁃ 簡単なon-policy, off-policyアルゴリズムの検証が完了 ⁃ 学習による勝率の上昇を確認、現在チューニング中 ■ 先読み機能(MCTS) ⁃ 初期の実装検証が完了 ⁃ 高速化を目指して様々な探索アルゴリズムを実験中 今後は研究開発を継続してフィージビリティを確認 実用に耐えるエージェントができ次第サービスインを検討 25
  • 26. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Copyright © DeNA Co.,Ltd. All Rights Reserved. 本日の話の流れ 課題の背景1 - 「逆転オセロニア」のご紹介 - AIで解決したいゲーム運用課題 「逆転オセロニア」のAI開発について2 - AI開発のロードマップ - 学習アーキテクチャのご紹介 - 現在できていること 3 今後に向けて - ゲームAI開発プロジェクトで難しい点 - AI活用を見越してやっておいた方がいいこと 26
  • 27. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Copyright © DeNA Co.,Ltd. All Rights Reserved. アプリゲームで強化学習を応用する難しさ 1. 環境の構築が大変 ⁃ Atari 2600などのベンチマークタスクは強化学習で扱いやすい学習環境 (ALE, OpenAI gym, …)が存在するが、これを0から作る必要がある ⁃ 状態表現はドメイン特有なものになるため特徴量エンジニアリングが複雑 • 経過ターン数, 盤面のスキル情報(毒, 時限スキル, …), 召喚駒… 2. シミュレータ速度がボトルネックになる ⁃ 多くの試行をするために応答をどれだけ高速化できるかが鍵 3. 実利用に際してアーキテクチャの検討・発明が必要 ⁃ AIモデルをクライアント/サーバのどちらに持たせるか ⁃ 最新のゲーム環境に追従したシミュレータの更新方法 ⁃ 大量のリクエストを捌くための推論やメモリ管理の効率化 27
  • 28. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Copyright © DeNA Co.,Ltd. All Rights Reserved. AI活用を見越してやっておいたほうがいいこと 1. AIの学習を念頭に置いたログの設計 ⁃ ユーザー行動分析のためのログとは別に、 AIが学習するためのログを事前に定義・実装しておく必要がある 2. シミュレータ開発 ⁃ バトルロジックのみを切り離しやすいような設計 ⁃ 高速化を念頭に入れた最適化 3. 最新技術に追従する体制作り ⁃ 強化学習・深層学習領域の技術アップデートは非常に早く、 最新アルゴリズムをキャッチアップして実装できるようなチームが必要 4. 現場とのコミュニケーション ⁃ 現場だけでは「AIで何ができるか」が分からないこともある ⁃ 課題を適切に定義したり企画を提案したりするサービス理解と、 現場との密なコミュニケーションが必要 28
  • 29. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Copyright © DeNA Co.,Ltd. All Rights Reserved. アプリゲームで強化学習を応用する嬉しさ ■ ゲーム環境という「箱庭」で研究開発ができる ⁃ Atariや囲碁といったゲームとは異なる、より複雑なゲーム環境で、 様々なアルゴリズムを検証できる ⁃ 論文通りの実装をしても上手くいかないことが多く、試行錯誤を通じて 実課題への適用に関する知見が集約されている ■ 強化学習におけるビジネスケースを示せる ⁃ 強化学習はビジネスアプリケーションが比較的困難な領域 ⁃ 比較的に適用しやすいゲーム事業で0→1のケースを生み出し続けたい 29
  • 30. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Copyright © DeNA Co.,Ltd. All Rights Reserved. ご清聴ありがとうございました

Editor's Notes

  1. 素材URL: http://free-illustrations.gatag.net/2014/08/01/080000.html http://www.irasutoya.com/2016/10/1.html