SlideShare a Scribd company logo
1 of 1
Download to read offline
敵対強化学習におけるゲームの複雑性の定量評価
大嶋 真理絵 中田 亨 (産総研NEC-産総研AI連携研究室)
実験に用いるゲーム
◆追加ルール
survivorによる位置交換
(Exchange)
• 特定の場所に来ると、 両者の位置が
入れ替わる
• Survivorのみ発動できる
同時手番ゲームであり、不完全情報ゲーム
1. ⾃分に有利なゲームのほうが⾏動選択の不確かさは少なくなる←有利さを⽣かした
戦略(必勝法)を構成する⼿数は多くないため
2. 学習が進むと、各プレイヤーの⾏動選択の不確かさは近い値に均衡する←相手が
限られた手しか打ってこなければ、応答する側も少ない種類の手で対応すれば済むため
3. ルールの効果は線形に重畳する︖︖
4. 新戦略が発⾒されると、発⾒した⽅の⾏動選択の不確かさは減少し、相⼿は増
加する
実験仮説
背景と目的
勝敗
・SurvivorはGoalに到達したら勝ち
・KillerはSurvivorと同じ場所に到達したら勝ち
・タイムアウト(上限ステップ到達時)はKillerの勝ち
マップ
・4x4のグリッドワールド
・初期位置、障害物やゴールの位置は固定
・障害物のある場所は通⾏できない
⾏動
・⾏動選択肢は上下左右、その場にとどまる(Stay)
・壁や障害物へ向かう⾏動は選択させない
◆基本ルール
×
Killerが罠を設置できる(Trap)
• Killerは1回だけ、Stayの代わりに罠
を設置できる
• Survivorが罠にかかったらKillerの勝
ち
×
⾏動選択の不確かさ
一定エピソードごとの
⾏動選択の不確かさの総和
= ෍ (݂(‫ݏ‬݅) ෍ (ܲ ݆ܽ ‫ݏ‬݅ logଶ
1
ܲ ݆ܽ ‫ݏ‬݅
) )
௔௝
∈௦௜
∈
2回 x 1 bit = 2 bit
5回 x 0 bit = 0 bit
◆状態表現
KillerとSurvivorの座標の組み合わせ(4次元、225状態)
Trapルールの場合、Killerは罠の残数を加えた5次元, 450状態
実験結果
仮説2 △
Plain, Exchangeは45度線に近い
値に収束するが、Trapを含むルー
ルはさほど45度線に近づかない
[1] V. Mnih, K. Kavukcuoglu, D. Silver, A. A. Rusu, J. Veness, M. G. Bellemare, A. Graves, M. Riedmiller, A. K. Fidjeland, G. Ostrovski, et al.: “Human-level
control through deep reinforcement learning”, Nature 518, pp.529-533, 2015.
[2] J. Heinrich, D. Silver: “Deep Reinforcement Learning from Self-Play in Imperfect-Information Games”, arXiv:1603.01121, 2016.
[3] L. Pinto, J. Davidson, R. Sukthankar, A. Gupta: “Robust adversarial reinforcement learning”, arXiv preprint arXiv:1703.02702, 2017.
参考文献
◆例
} 合計して 2 bit →
⾏動ミス︓
罠を使い切っているのに罠を設置しようとする
( )
まとめ
• 有利不利と⾏動選択の不確かさは単純な相関はしなかった
• 複数のルールの重畳は、片方を打ち消すこともある
• ⾏動選択の不確かさの変動図は、新戦略発⾒のタイミングを観察できた
• ⾏動選択の不確かさの変動図は、敵対強化学習の観察ツールになる
◆目的
1. 敵対するエージェント同士による学習過程や結果の変化
2. 非対称なルールによる違い
これらを⾏動選択の不確かさ等の指標から考察
実験アルゴリズム
◆シングルQ学習
◆学習ターン
• Killerから学習を開始し、交互に学習させる
• Killerの初回学習ターンのみSurvivorの⾏動選択は
Stayのみ
st:現在の状態 a:選択⾏動 st+1:遷移後の状態 r:報酬 ߛ: 割引率 ߙ: 学習率
Survivor
ゴールに逃げたい
Killer
Survivorを捕まえたい
◆背景
敵対強化学習は、頑健な⽅策を学習でき、学習速度も向上するという利点がある[3]。
しかし、敵対的エージェントは主となるエージェントの学習効果を向上させるため
の外乱エージェントである研究が多く、エージェント同士が対等に敵対する状況に
関する研究は多くない。
◆報酬
罠の位置は双方わからない
Killerは罠を持っているか
どうかはわかる
敗北時の報酬は勝利報酬の負値
ステップ数で正規化して
2 bit ÷ 7回 = 約0.29 bit / step
1ステップごとの
⾏動選択の不確かさの
平均値
÷ 全ステップ数
f(s):状態sへの遷移回数 P(a|s): 状態siにおいて⾏動ajを選択した割合
= ෍ (݂(‫ݏ‬݅) ෍ (ܲ ݆ܽ ‫ݏ‬݅ logଶ
1
ܲ ݆ܽ ‫ݏ‬݅
) )
௔௝
∈஺௦௜
∈ௌ
ステップ数による正規化
Goal
アプローチ
• ⻤ごっこゲームを敵対強化学習させ、⾏動選択の不確かさを測る
• ゲームにルールを追加して、⾏動選択の不確かさの差を測る
学習パラメータ
敵対強化学習とは
• 利害の⼀致しないエージェントを同⼀環境におき、それぞれ独⽴して強化学習を
させること
• 頑健な⽅策を学習でき、学習速度も向上する[3]
Killer [bit / step]
Survivor[bit/step] 1ステップにおける⾏動選択の不確かさの変動図
E1
E9
50000エピソード間隔
☆ 始点および終点
収束点の関係
P
T
ルールの影響の重畳が
線形だった場合のT+E
E T+E
Kは手を固定
Sは手を決めかねる
Sは手を固定
Kは手を決めかねる
両者とも
手を決めかねる
両者とも
打つ手が固定
E11
E8
新戦略発⾒の例
E5
E7 E6
P6
Survivorがゴール 膠着(タイムアウト)
( )
全状態 全⾏動
25000エピソード間隔
☆ 始点および終点
仮説1 ×
TrapはKiller有利だが、Killerの
⾏動選択の不確かさは増加した
Goal
捕獲とゴールの⽐率
Catch
仮説3 ×
Plain→Trap+Exchangeは
Plain→TrapとPlain→Exchange
の線形和にならない(収束点の
関係)
仮説4 ○
ExchangeのE5ではKillerが負け
ていたが、E7からタイムアウト
に持ち込みE11から負けなくなる
軌跡の形状
軌跡が上に凸のルール︓Trap, T+E
Sが先に手を広めて学習し、そのあと
Kが手を広めて学習する
軌跡が下に凸のルール︓Exchange
Sが先に打つ手を絞っていき、そのあ
とKが手を絞っていく
軌跡が直線のルール︓Plain
Kは手を絞っていくが、Sは手を決め
かねる
Sの勝率⼤
捕獲による
Kの勝率⼤
タイムアウトによるKの勝率⼤
E3
E3
E5
E6E8
E9
E7
E10
E11
T1
T3
T3
T5
T5
T8
T10
T8
T10
TE1
TE3
TE4TE7
TE9
TE11
TE3
TE4
TE7
TE9
TE11
P1
P2P5
P6
P7
P8
P2P5
P6
P7
P8P11
P11
出会い頭でKiller勝利 Survivorがゴール 膠着
Plain
Exchange
Trap
Trap+
Exchange
P11P2
出会い頭でKiller勝利
膠着
T3-1
出会い頭でKiller勝利
T3-2
膠着
T8
出会い頭でKiller勝利
T10
TE3
Survivorがゴール
TE4 TE7
膠着(タイムアウト)
TE9 TE11
E5 E10 E11 E19E1
ܳ ‫ݏ‬‫ݐ‬, ܽ‫ݐ‬ ← ܳ ‫ݏ‬‫ݐ‬, ܽ‫ݐ‬ + ߙ[ߛmaxܳ ‫ݏ‬‫ݐ‬+ 1,
ܽ − ܳ(‫,ݏ‬ ܽ)]
ܽ
↓→
P5 ←←
↓
←
↓↑
←←
↓
↓
↓
↓
←←←
↓
↓
⇄
←
↑←
→↓
P7
出会い頭でKiller勝利
P8
↓
↓
↓
←←←
←
↓↑
←
⇄ ⇄
⇄
V← ↓
↓
←←
←←
↓
V⇄
⇄
⇄
⇄
⇄
←
↑←
↓
↓
↑
←
←←
⇄
←
←
←
V
←→
↓ ↓
↓
↓
↓
↓
→
↑
←
←
Survivorがゴール
T3-3 ↑←
←
←
V←→→
↓
↓
←
↓
→
膠着
T20
V ↓←
⇄
←
↑ ↑
← ↓
↓
↓
←← ←
⇄
⇄
↓
↓
↓
↑
←
←
←
← ←
⇄
⇄
⇄⇄
⇄
⇄
←
↓
⇄
⇄
↓
↓
膠着(タイムアウト)
E7
Survivorがゴール

More Related Content

Recently uploaded

Recently uploaded (8)

Keywordmap overview material/CINC.co.ltd
Keywordmap overview material/CINC.co.ltdKeywordmap overview material/CINC.co.ltd
Keywordmap overview material/CINC.co.ltd
 
2024年5月17日 先駆的科学計算フォーラム2024 機械学習を用いた新たなゲーム体験の創出の応用
2024年5月17日 先駆的科学計算フォーラム2024 機械学習を用いた新たなゲーム体験の創出の応用2024年5月17日 先駆的科学計算フォーラム2024 機械学習を用いた新たなゲーム体験の創出の応用
2024年5月17日 先駆的科学計算フォーラム2024 機械学習を用いた新たなゲーム体験の創出の応用
 
MPAなWebフレームワーク、Astroの紹介 (その1) 2024/05/17の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その1) 2024/05/17の勉強会で発表されたものです。MPAなWebフレームワーク、Astroの紹介 (その1) 2024/05/17の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その1) 2024/05/17の勉強会で発表されたものです。
 
LoRaWAN無位置ロープ型水漏れセンサー WL03A-LB/LSカタログ ファイル
LoRaWAN無位置ロープ型水漏れセンサー WL03A-LB/LSカタログ ファイルLoRaWAN無位置ロープ型水漏れセンサー WL03A-LB/LSカタログ ファイル
LoRaWAN無位置ロープ型水漏れセンサー WL03A-LB/LSカタログ ファイル
 
ネットワーク可視化 振る舞い検知(NDR)ご紹介_キンドリル202405.pdf
ネットワーク可視化 振る舞い検知(NDR)ご紹介_キンドリル202405.pdfネットワーク可視化 振る舞い検知(NDR)ご紹介_キンドリル202405.pdf
ネットワーク可視化 振る舞い検知(NDR)ご紹介_キンドリル202405.pdf
 
情報を表現するときのポイント
情報を表現するときのポイント情報を表現するときのポイント
情報を表現するときのポイント
 
Hyperledger Fabricコミュニティ活動体験& Hyperledger Fabric最新状況ご紹介
Hyperledger Fabricコミュニティ活動体験& Hyperledger Fabric最新状況ご紹介Hyperledger Fabricコミュニティ活動体験& Hyperledger Fabric最新状況ご紹介
Hyperledger Fabricコミュニティ活動体験& Hyperledger Fabric最新状況ご紹介
 
LoRaWAN無位置ロープ式水漏れセンサーWL03A 日本語マニュアル
LoRaWAN無位置ロープ式水漏れセンサーWL03A 日本語マニュアルLoRaWAN無位置ロープ式水漏れセンサーWL03A 日本語マニュアル
LoRaWAN無位置ロープ式水漏れセンサーWL03A 日本語マニュアル
 

Featured

Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 

Featured (20)

PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy Presentation
 

Quantification of Game Complexity with Adversarial Reinforcement Learning

  • 1. 敵対強化学習におけるゲームの複雑性の定量評価 大嶋 真理絵 中田 亨 (産総研NEC-産総研AI連携研究室) 実験に用いるゲーム ◆追加ルール survivorによる位置交換 (Exchange) • 特定の場所に来ると、 両者の位置が 入れ替わる • Survivorのみ発動できる 同時手番ゲームであり、不完全情報ゲーム 1. ⾃分に有利なゲームのほうが⾏動選択の不確かさは少なくなる←有利さを⽣かした 戦略(必勝法)を構成する⼿数は多くないため 2. 学習が進むと、各プレイヤーの⾏動選択の不確かさは近い値に均衡する←相手が 限られた手しか打ってこなければ、応答する側も少ない種類の手で対応すれば済むため 3. ルールの効果は線形に重畳する︖︖ 4. 新戦略が発⾒されると、発⾒した⽅の⾏動選択の不確かさは減少し、相⼿は増 加する 実験仮説 背景と目的 勝敗 ・SurvivorはGoalに到達したら勝ち ・KillerはSurvivorと同じ場所に到達したら勝ち ・タイムアウト(上限ステップ到達時)はKillerの勝ち マップ ・4x4のグリッドワールド ・初期位置、障害物やゴールの位置は固定 ・障害物のある場所は通⾏できない ⾏動 ・⾏動選択肢は上下左右、その場にとどまる(Stay) ・壁や障害物へ向かう⾏動は選択させない ◆基本ルール × Killerが罠を設置できる(Trap) • Killerは1回だけ、Stayの代わりに罠 を設置できる • Survivorが罠にかかったらKillerの勝 ち × ⾏動選択の不確かさ 一定エピソードごとの ⾏動選択の不確かさの総和 = ෍ (݂(‫ݏ‬݅) ෍ (ܲ ݆ܽ ‫ݏ‬݅ logଶ 1 ܲ ݆ܽ ‫ݏ‬݅ ) ) ௔௝ ∈௦௜ ∈ 2回 x 1 bit = 2 bit 5回 x 0 bit = 0 bit ◆状態表現 KillerとSurvivorの座標の組み合わせ(4次元、225状態) Trapルールの場合、Killerは罠の残数を加えた5次元, 450状態 実験結果 仮説2 △ Plain, Exchangeは45度線に近い 値に収束するが、Trapを含むルー ルはさほど45度線に近づかない [1] V. Mnih, K. Kavukcuoglu, D. Silver, A. A. Rusu, J. Veness, M. G. Bellemare, A. Graves, M. Riedmiller, A. K. Fidjeland, G. Ostrovski, et al.: “Human-level control through deep reinforcement learning”, Nature 518, pp.529-533, 2015. [2] J. Heinrich, D. Silver: “Deep Reinforcement Learning from Self-Play in Imperfect-Information Games”, arXiv:1603.01121, 2016. [3] L. Pinto, J. Davidson, R. Sukthankar, A. Gupta: “Robust adversarial reinforcement learning”, arXiv preprint arXiv:1703.02702, 2017. 参考文献 ◆例 } 合計して 2 bit → ⾏動ミス︓ 罠を使い切っているのに罠を設置しようとする ( ) まとめ • 有利不利と⾏動選択の不確かさは単純な相関はしなかった • 複数のルールの重畳は、片方を打ち消すこともある • ⾏動選択の不確かさの変動図は、新戦略発⾒のタイミングを観察できた • ⾏動選択の不確かさの変動図は、敵対強化学習の観察ツールになる ◆目的 1. 敵対するエージェント同士による学習過程や結果の変化 2. 非対称なルールによる違い これらを⾏動選択の不確かさ等の指標から考察 実験アルゴリズム ◆シングルQ学習 ◆学習ターン • Killerから学習を開始し、交互に学習させる • Killerの初回学習ターンのみSurvivorの⾏動選択は Stayのみ st:現在の状態 a:選択⾏動 st+1:遷移後の状態 r:報酬 ߛ: 割引率 ߙ: 学習率 Survivor ゴールに逃げたい Killer Survivorを捕まえたい ◆背景 敵対強化学習は、頑健な⽅策を学習でき、学習速度も向上するという利点がある[3]。 しかし、敵対的エージェントは主となるエージェントの学習効果を向上させるため の外乱エージェントである研究が多く、エージェント同士が対等に敵対する状況に 関する研究は多くない。 ◆報酬 罠の位置は双方わからない Killerは罠を持っているか どうかはわかる 敗北時の報酬は勝利報酬の負値 ステップ数で正規化して 2 bit ÷ 7回 = 約0.29 bit / step 1ステップごとの ⾏動選択の不確かさの 平均値 ÷ 全ステップ数 f(s):状態sへの遷移回数 P(a|s): 状態siにおいて⾏動ajを選択した割合 = ෍ (݂(‫ݏ‬݅) ෍ (ܲ ݆ܽ ‫ݏ‬݅ logଶ 1 ܲ ݆ܽ ‫ݏ‬݅ ) ) ௔௝ ∈஺௦௜ ∈ௌ ステップ数による正規化 Goal アプローチ • ⻤ごっこゲームを敵対強化学習させ、⾏動選択の不確かさを測る • ゲームにルールを追加して、⾏動選択の不確かさの差を測る 学習パラメータ 敵対強化学習とは • 利害の⼀致しないエージェントを同⼀環境におき、それぞれ独⽴して強化学習を させること • 頑健な⽅策を学習でき、学習速度も向上する[3] Killer [bit / step] Survivor[bit/step] 1ステップにおける⾏動選択の不確かさの変動図 E1 E9 50000エピソード間隔 ☆ 始点および終点 収束点の関係 P T ルールの影響の重畳が 線形だった場合のT+E E T+E Kは手を固定 Sは手を決めかねる Sは手を固定 Kは手を決めかねる 両者とも 手を決めかねる 両者とも 打つ手が固定 E11 E8 新戦略発⾒の例 E5 E7 E6 P6 Survivorがゴール 膠着(タイムアウト) ( ) 全状態 全⾏動 25000エピソード間隔 ☆ 始点および終点 仮説1 × TrapはKiller有利だが、Killerの ⾏動選択の不確かさは増加した Goal 捕獲とゴールの⽐率 Catch 仮説3 × Plain→Trap+Exchangeは Plain→TrapとPlain→Exchange の線形和にならない(収束点の 関係) 仮説4 ○ ExchangeのE5ではKillerが負け ていたが、E7からタイムアウト に持ち込みE11から負けなくなる 軌跡の形状 軌跡が上に凸のルール︓Trap, T+E Sが先に手を広めて学習し、そのあと Kが手を広めて学習する 軌跡が下に凸のルール︓Exchange Sが先に打つ手を絞っていき、そのあ とKが手を絞っていく 軌跡が直線のルール︓Plain Kは手を絞っていくが、Sは手を決め かねる Sの勝率⼤ 捕獲による Kの勝率⼤ タイムアウトによるKの勝率⼤ E3 E3 E5 E6E8 E9 E7 E10 E11 T1 T3 T3 T5 T5 T8 T10 T8 T10 TE1 TE3 TE4TE7 TE9 TE11 TE3 TE4 TE7 TE9 TE11 P1 P2P5 P6 P7 P8 P2P5 P6 P7 P8P11 P11 出会い頭でKiller勝利 Survivorがゴール 膠着 Plain Exchange Trap Trap+ Exchange P11P2 出会い頭でKiller勝利 膠着 T3-1 出会い頭でKiller勝利 T3-2 膠着 T8 出会い頭でKiller勝利 T10 TE3 Survivorがゴール TE4 TE7 膠着(タイムアウト) TE9 TE11 E5 E10 E11 E19E1 ܳ ‫ݏ‬‫ݐ‬, ܽ‫ݐ‬ ← ܳ ‫ݏ‬‫ݐ‬, ܽ‫ݐ‬ + ߙ[ߛmaxܳ ‫ݏ‬‫ݐ‬+ 1, ܽ − ܳ(‫,ݏ‬ ܽ)] ܽ ↓→ P5 ←← ↓ ← ↓↑ ←← ↓ ↓ ↓ ↓ ←←← ↓ ↓ ⇄ ← ↑← →↓ P7 出会い頭でKiller勝利 P8 ↓ ↓ ↓ ←←← ← ↓↑ ← ⇄ ⇄ ⇄ V← ↓ ↓ ←← ←← ↓ V⇄ ⇄ ⇄ ⇄ ⇄ ← ↑← ↓ ↓ ↑ ← ←← ⇄ ← ← ← V ←→ ↓ ↓ ↓ ↓ ↓ ↓ → ↑ ← ← Survivorがゴール T3-3 ↑← ← ← V←→→ ↓ ↓ ← ↓ → 膠着 T20 V ↓← ⇄ ← ↑ ↑ ← ↓ ↓ ↓ ←← ← ⇄ ⇄ ↓ ↓ ↓ ↑ ← ← ← ← ← ⇄ ⇄ ⇄⇄ ⇄ ⇄ ← ↓ ⇄ ⇄ ↓ ↓ 膠着(タイムアウト) E7 Survivorがゴール