3. 目次
1. AlphaGo Zero を構成する二つのパーツ
i. ニューラルネットワーク (DNN)
ii. モンテカルロ木探索 (MCTS)
2. AlphaGo Zero の学習プロセス
a. MCTS による自己対局
b. DNN の学習
c. 学習前後の性能比較
3. AlphaGo の各種バージョン
4. AlphaGo Fan vs. AlphaGo Zero
5. AlphaGo Zero の性能評価
6. 教師あり学習 vs. 強化学習
7. 人の動き予測
8. まとめ
9. 参照論文
- 3 -
4. 1. AlphaGo Zero を構成する二つのパーツ
i. ニューラルネットワー
ク
(DNN)
ii. モンテカルロ木探
索
(MCTS)
石の配置履歴 (s) だけをインプットとし
て、次の手の確率分布 (P) と現盤面の勝つ
確率 (v) を計算する。
i. のモンテカルロ木探索でノード拡張
と評価に利用される
現盤面から一番良い次の手を探索。
ii. の DNN を活用し、ツリーの各ノードの
拡張 & 評価を行う。
AlphaGo ZeroAlphaGo Zero はニューラルネットワークはニューラルネットワーク (DNN)(DNN) とモンとモン
テカルロ木探索テカルロ木探索 (MCTS)(MCTS) の二つのパーツで構成されるの二つのパーツで構成される
- 4 -
17. 3. AlphaGo の各種バージョン
1. AlphaGo Fan
2015 年 10 月に発表された論文 (※ 1 )
1. AlphaGo Lee
基本 Fan と同様だが、 Value Network の訓練方法と DNN のアーキテクチャが異な
る
( 論文無し。※2で軽くコメントされた )
1. AlphaGo Master
Zero のアーキテクチャと同様だが、教師あり学習を行い、インプットも Zero と異
なる
( 論文無し。※2で軽くコメントされた )
1. AlphaGo Zero
一つの DNN と MCTS だけで構成された最新アーキテクチャ (※ 2 )
※ 1: Silver, D. et al. Mastering the game of Go with deep neural networks and tree search. Nature 529, 484–489 (2016).
※ 2: Silver, D. et al. Mastering the game of Go without human knowledge.. . Nature 550, 354–359 (19 October 2017)
- 17 -
18. 4. AlphaGo Fan vs. AlphaGo Zero
AlphaGo Fan AlphaGo Zero
構成
MCTS, Policy Network(DNN), Value
Network(DNN), Rollout policy
MCTS, DNN
使用 DNN Convolutional Neural Network Residual Network
学習方法
教師あり学習 & 強化学習
強化学習
インプット 石の配置、ダメの数、取れる相手の
石の予測数、シチョウが取れるかど
うか、などなど
石の配置履歴
学習時間 数か月
40 日
性能
3000 elo 5000 elo
1. Zero の方がアーキテクチャシンプル
2. Fan は囲碁のルールを利用した手作りインプットを使用。 Zero は石の配置履
歴のみ
3. Zero は人のデータを必要としない
4. Zero の学習コストも低いうえに、性能も優れている
- 18 -
23. 9. 参照論文
Mastering the game of Go without human knowledgeMastering the game of Go without human knowledge
https://www.nature.com/nature/journal/v550/n7676/full/nature24270.htmlhttps://www.nature.com/nature/journal/v550/n7676/full/nature24270.html
Mastering the game of Go with deep neural networks and tree searchMastering the game of Go with deep neural networks and tree search
http://www.nature.com/nature/journal/v529/n7587/full/nature16961.htmlhttp://www.nature.com/nature/journal/v529/n7587/full/nature16961.html
- 23 -