Suphx: Mastering Mahjong with Deep Reinforcement Learning

DLゼミ
Suphx: Mastering Mahjong with Deep
Reinforcement Learning
北海道⼤学⼤学院情報科学研究院
情報理⼯学部⾨複合情報⼯学分野調和系⼯学研究室
修⼠課程 2年織⽥智⽮

• Junjie Li, Sotetsu Koyamada, Qiwei Ye, Guoqing
Liu, Chao Wang, Ruihan Yang, Li Zhao,Tao Qin,
Tie-Yan Liu, Hsiao-Wuen Hon
• Microsoft Research Asia
• Kyoto University
• University of Science and Technology of China
• Tsinghua University
• Nankai University
• Arxiv Mar 2020
書誌情報 2

• Microsoftが開発した⿇雀AI
• 強化学習で⿇雀は⾮常に難しい
– マルチプレイヤーマルチラウンド不完全情報ゲーム
– プレイヤーが知れる情報が少ない
• 天鳳（オンライン⿇雀）の top 0.001%に位置
• ⿇雀AIのSOTA
論⽂概要 3

• 4⼈でプレイ
• 親番を2週したら終了
• （最低8局(ラウンド)）
• ⼭から1つ引き（ツモ）、
⼿牌から1つ捨てる
• 4メンツ1雀頭が揃うと和了
れる（アガる）
– 相⼿が捨てる or ツモる
• 相⼿が捨てた牌を拾える
（鳴く）
– チー、ポン、カン
⿇雀とは 4
https://osusume.mynavi.jp/uploads/article/image/2436/article_header_gf1420184777l.jpg
https://mj-dragon.com/common/images/rule/agari-p1.gif
⼿牌
⼭

⿇雀は難しい
• 1局の勝ち負けをそのまま学習のフィードバックとし
て使えない
• 平均10!"通り以上の観測できない場合の数が存在
• ⾃分ではなく、相⼿の⼿牌によって⾏動の良し悪し
が⼤きく決まる
• 鳴き（チー、ポン、カン）のせいで場合の数が膨れ
上がり、MCTS (Monte Carlo Tree Search) が使えない
背景 5

Suphxを提案
• 教師あり学習+self-play強化学習
以下の3つの⼯夫によって問題を克服
1. Global reward prediction
– それぞれの局での強化学習の評価に使⽤
2. Oracle guiding
– 相⼿の情報が100％⾒える状態から学習を始める
3. Run-time policy adaptation
– MCTSの代わりにparametric Monte-Carlo policy adaptation
を導⼊
⼯夫 6

5つのDNNモデル+1ルールベースモデルで構成
5つのモデル
• 何を切るか、リーチ、チー、ポン、カン
• CNNベースのモデル
ルールベースモデル（Winning model）
• 和了れるかどうか判定
• オーラス（最終ラウンド）で和了っても最下位にな
る場合は和了らない（捲れる役が揃うまで待つ）
Suphxの概要 7

ツモ番（⾃分のターン）のとき
• Winning modelで和了判定
• カンモデル
• リーチモデル
• ツモ切りモデル
相⼿の番のとき
• ロン可能ならWinning modelへ
• チー、ポンモデルから鳴き（⾏動）を提案されたら
採⽤しツモ番へ
意思決定プロセス 8

意思決定フローチャート 9

CNNへ⼊れる特徴量
• 牌のデータ
– ⼿牌、ドラ、河
• 整数データ
– 持ち点、⼭の残り数
• カテゴリカルデータ
– 局の数、親、リーチ数、
何本場
＋ look ahead features
特徴量とモデル構造 10
牌のエンコード⽅法
後述

深さ優先探索で可能な和了り⼿を探索
ある⼿牌を切った後の
• 和了りの点
• その確率
などの特徴量を⼊⼒
簡単化のため
• 相⼿の⾏動は無視
• ツモ和了りのみ
100+ x 34 次元の特徴量
look-ahead features 11

カテゴリカルなデータはチャネル⽅向にエン
コード（34次元全部0 or 1 )
整数値はビニング（チャネル⽅向にバケット）
モデル構造 12

3ステップ
1. 5モデルを教師あり学習
– 天鳳top playerの state, actionのpairを使⽤
2. self-play RL (モデルをpolicyとして, ⽅策勾配法)
– global reward prediction
– oracle guiding
3. online playing時にrun-time policy adaptationを使⽤
学習アルゴリズム 13

分散強化学習では更新タイミングが同期されず、
古いtrajectoryを使⽤する可能性
→ ⽅策勾配をimportance samplingにより変形
分散強化学習 14
Importance Sampling
ℒ 𝜃 = 𝐸 𝐴!!(𝑠, 𝑎)
最終的な⽅策勾配
Aはアドバンテージ、Hはエントロピー項

RLはエントロピーにセンシティブ
• エントロピーが⼩さいとすぐ収束（⽅策を⼤きく
改善しない）
• エントロピーが⼤きいと不安定（⽅策のバリアン
ス⼤きくなる）
→ 以下のエントロピー項の係数を動的に調整
分散強化学習 15

• 1つの局で負けることが最終的な負けにつながらない
→各局を評価するのは困難
• RLに正しい評価を与える為、ゲームの最終報酬を各
局に適切に割り当てる必要
• 学習データ: top playerの過去ログ
• ⼊⼒: 現在までの対局情報
Global Reward Prediction 16
最終報酬の予測モデルを構築

• 以下MSEを最⼩化
Global Reward Prediction モデル詳細 17
feature vector
• スコアに加えて、リーチ数、何本場、親番などの情報
報酬
k局⽬の報酬は
reward = predictor(𝑥#) - predictor(𝑥#$%)

学習のspeed upの為に導⼊
(1)~(3)は通常エージェントが観測可能な範囲
(4),(5)を⼊れて学習させるとすぐ強いエージェントが完成
徐々に⾒えなくさせるようにパラメータで減衰
Oracle Guiding 18
(1) ⾃分の⼿牌
(2) 鳴いた牌（チー、ポン）
(3) 累計スコア、リー棒
(4) ターチャの⼿牌
(5) 牌⼭

⼿牌が良ければアグレッシブに、悪ければ勝負
から降りることもある
しかしMCTSは使えない
pMCPA
1. Simulations: 3⼈の対戦相⼿の⼿牌と、⾃分の⼿牌
を除いた⼭のプールからサンプルし、offline-trained
policyを使ってrolloutし、 K traejctoryを得る
2. Adaptation: trajectoryを使ってpolicyをfine-tuneing
3. Inference: fine-tuned policyを使ってplay
Parametric Monte-Carlo Policy Adaptation 19
fine-tuningを⽤いて⽅策を変更

• Kの数はそれほど多くはいらない
• updated policyはまだ訪れてないこのラウン
ドの状態の推定値も更新できる
• run-time adaptationは限られたシミュレー
ションから得られた知識を未知の状態に⼀般
化するのに役⽴つ
注意点: 戦略の更新は各局で独⽴
(新しい局では新しくfine-tuneし直す)
pMCPA 20

教師あり学習の評価
• 5つのモデルは別々に学習
• データは天鳳top playerのlog
• discard modelは34クラス分類のため学習データ増
• validation: 10K, test: 50k
Offline Evaluation 21

強化学習の評価
• SL: 教師ありのみのモデル
• SL-weak: 教師あり学習途中のモデル
• RL-basic: discardモデルのみ
• RL-1: RL-basic + global reward prediction
• RL-2: RL-1 + oracle guiding
最初の⼿牌は勝負に⼤きな影響
→ 1M gamesで評価

天鳳のランキングシステム（段位）で評価
• バリアンスを減らすため、800K gameを1Mからサンプ
ル x 1000回
• 評価だけで2⽇（20 Tesla K80 GPU）
• 学習には1.5M games, 2⽇(44GPUs, 4 Titan XP, 40 Tesla
K80)
RLを導⼊することによって
スコアが⼤きく前進

RLが効いてる例 24
• agentは南家
• オーラス
（最終局⾯）
⾚枠: RL-basic
⻘枠: RL-1 and 2
⻘はこの局で和了れなくても
勝てることが分かっている
フリテン
現物

pMCPAの評価
1. Data generation: ⼿牌を固定し、100K trajectoryを⽣成
2. Policy adaptation: 得られた100K trajectoryに対してfine-
tuning
3. Test of the adapted policy: ⼿牌を固定し、調整された
⽅策で10K play
• 数百の初期ラウンドでのみテスト（時間かかるから）
Evaluation of Run-Time Policy Adaptation 25
RL−2でpMCPAなしに⽐べ winning rate 66％

pMCPAが効いてる例 26
• agentは南家
• オーラス
（最終局⾯）
⾚枠: pMCPAなし
⻘枠: pMCPAあり
12000点以上で和了らないと
最下位は避けられない
→リスクを取り⾼い⼿を狙う
跳満ツモ: ◯
跳ロン対⾯: ×

天鳳（オンライン⿇雀）でplay
• 従来の⿇雀AI、top playerと対戦し段位で⽐較
• 段位とプレイヤー数の分布
Online Evaluation 27
全体のtop
0.001%

段位はブレることがあるので、安定段位で評価
• バリアンスがあるので、（playerのゲーム数が少ない
ときとか）K gamesをサンプル、をN回

段位はブレることがあるので、安定段位で評価
• バリアンスがあるので、（playerのゲーム数が少ない
ときとか）K gamesをサンプル、をN回
他の⿇雀AI、⼈間のスコアを凌駕

詳細な統計量
• 安牌の維持が得意で、混⼀⾊を好む特徴
• 最下位になることが少ない(これがstable rankを押し
上げている)
• 低い放銃率(振り込み率） (top playerのお墨付き）
Suphxの打ち⽅ 30
https://twitter.com/Futokunaio_Sot
a/status/1142399895577325568

攻めと防御の例 31
• agentは⻄家
北を安パイとして
保持している例
もし北を予め切っていた場合、和了に近い形ができてた
にも関わらず降りることになる

Suphxは最強の⿇雀AI
しかし、改善の余地あり
global reward prediction
• 配牌が良くて和了るのが簡単な局と、難しい局で和
了った場合、難しさを考慮した報酬にするべき
oracle guiding
• oracleとnormalを同時に訓練し、知識蒸留
• 局単位ではなく、状態レベルのフィードバック
pMCPA
• 最初しかやってないから最初の配牌に依存
• 局が進んだ⽅がいろんな情報⾒える
Conclusuion and Discussion 32

Copyright © 2020 調和系⼯学研究室 - 北海道⼤学⼤学院情報科学研究院情報理⼯学部⾨複合情報⼯学分野 – All rights reserved.
33
まとめ
• 将棋で⼈間を超えたAIを提案
• 教師あり学習＋強化学習
• 将棋AIでSOTA
以下の⼯夫を提案
• multi-roundなゲームで各ラウンドを評価するglobal
reward predictionを提案
• 学習スピードを向上させるため、Oracle Guiding
• MCTSの適⽤が難しいドメインに適⽤できるpMCPA
現実も⿇雀のように複雑なルールがあるドメインが多い
→ これらの⼯夫が役に⽴つ可能性

Suphx: Mastering Mahjong with Deep Reinforcement Learning

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from harmonylab

More from harmonylab (20)

Recently uploaded

Recently uploaded (20)

Suphx: Mastering Mahjong with Deep Reinforcement Learning