Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
AlphaGo 囲碁AI Master
〜AlphaGoから何を学ぶのか〜
2017/2 今井健太郎
【AlphaGo】
• 局面の勝率を評価するモデル(value networks)と、着手の勝率を評価するモデル
(policy networks)が別々に構築されている
• プロの棋譜と、自己対決(強化学習)によりモデル(CNN)の精度を向上...
1. 自己紹介
2. 囲碁の基本ルール〜AlphaGoと絡めて〜
3. AlphaGoについて
4. AlphaGoに注目する意義
5. 連絡先
目次
1.自己紹介
自己紹介:色々な方がAlphaGoを語っていますが。。
【人工知能関連】
• 人工知能、ディープラーニングなどの情報を専門的に扱う、「人工知能ビジネス創発
サロン」の管理人もやっています
【囲碁関連】
• 平成22年度 全日本囲碁選手権(団体戦...
2.囲碁の基本ルール
〜AlphaGoと絡めて〜
DeepMind「囲碁は世界で最も複雑なゲーム」
【オセロ】: (探索空間の大きさ:~10の60乗)
– 1997年 Logistelloが世界チャンピオンに勝利
【チェス】: (探索空間の大きさ:~10の120乗)
– 1997年 IBMのD...
複雑と言われますが、囲碁は陣取りゲームです
【ルール1】
• 交互に打って囲った陣地の多い方が勝ちです
【ルール2】
• 先手の方が有利なのでコミ(6目半)があります
実はコミの大きさって国や時代によって変
わってきたんですよ!
私が囲碁を始め...
囲んだら相手の石を取れますが例外があります
【ルール3】
• 囲んだら相手の石を取れます(終局後取った石の分だけ相手の陣
地を減らせます)
【ルール4】
• 例外はコウです(以下のような場合です)、一手他のところに打
たないと相手の石を取れませ...
• 2016/03/09–15 Google DeepMind Challenge Match第3局終了後
AlphaGoはコウに弱いという都市伝説がありました
次戦以降どう
戦いますか?
高尾名人(2017/2時点)
・とりあえずコウくらい
...
仮説:コウに弱い?(かった)は都市伝説ではないかも
【ルール4(コウ)】
• 一手他のところに打たないと相手の石を取れません!
• AlphaGoは、最善手を評価する際、policy networksを用いています。
• コウの場合は、最善手が...
自滅はできません(投了しましょう!)
【ルール5】
• 自滅はできません(自分から取られる手は打てません)
白から打て
ません
黒からは打
てますよ!
3. AlphaGoについて
• 人間の脳を模した、ニューラルネットワークを深く(ディープ)
にした手法
• 特に画像解析や物体認識などで顕著な成果を出し、注目を浴びま
した
• 完全情報ゲームの解き方は、AlphaGoでの知見でほとんど対応で
きそうです
その前にディープ...
【よくある質問】
• 囲碁とかできる人ってめちゃくちゃ先まで読んでるんでしょ!?
【弱い囲碁AIの取り組み】
• 片っ端から場合の手を考えて囲碁させます(10の360乗です!!)
【強い囲碁AIの取り組み】
• 強い人の囲碁の記憶を学習させて囲...
• どの手が最善手か(一番勝つ可能性が高いのはどの手か?)
囲碁におけるディープラーニングの活用
【入力層】 【ディープラーニング】
人間の脳に模したモデル
(深くすればいいというもの
でも。。)
【出力層】
最善手の候補
候補A : 勝率70...
【二つネットワークが別個に構築される】
• 局面の勝率を評価するモデル(value networks)
• 着手の勝率を評価するモデル(policy networks)
【人間においても二つが別個の判断から着手が決定される】
• 形勢判断(局面...
【AlphaGoにおけるCNN(SL Policy network)の構成】
• 入力は48チャネル(黒石/白石の位置、石の生き死に・・・)
• 中間層は13層構成
• 3,000万の盤面データをベースに50GPUで3.4億ステップ、3週間にわ...
【教師データ】
• インターネット囲碁道場KGSの六~九段の棋譜 16万局(約3000万
局面)
【自己対戦】
• 「policy network」同士を対局させて、「RL policy network pρ」を
構築
• 「RL policy...
【モンテカルロ木検索 MCTS(Monte Carlo tree search)】
• 最善手の探索にはモンテカルロで勝率の高い着手を選びます
• いい手でも負けうるので(確率)、調整の変数と勝率を組み合わ
せて決定
• (w/n) + (2l...
4.AlphaGoに注目する意義
【アルファー碁から何を学ぶのか】
• 完全情報ゲームにおいては、囲碁という場合の数がほぼ無限に存在するゲ
ームにおいても、少なくとも人間以上には、素敵な回答を人工知能は算出
することが可能
• そのためには、教師となるデータと、そのデータから構...
5.連絡先
【連絡先:今井健太郎】
※個人のSNSは更新していなく恐縮ですが、直接、ご用事がありましたら、
Messenger、DMなどでお気軽にご連絡頂ければ幸いです。
何か御用がある方はお気軽に
・https://www.facebook.com/ke...
参考ニュース(DeepMindより)
Upcoming SlideShare
Loading in …5
×

AlphaGo 囲碁AI Master 〜AlphaGoから何を学ぶのか〜

完全情報ゲームの一つの解き方方としてAlphaGoが注目されています。2016年末に改良版(通称:Master)の公開を機に資料をアップいたします。

  • Be the first to comment

AlphaGo 囲碁AI Master 〜AlphaGoから何を学ぶのか〜

  1. 1. AlphaGo 囲碁AI Master 〜AlphaGoから何を学ぶのか〜 2017/2 今井健太郎
  2. 2. 【AlphaGo】 • 局面の勝率を評価するモデル(value networks)と、着手の勝率を評価するモデル (policy networks)が別々に構築されている • プロの棋譜と、自己対決(強化学習)によりモデル(CNN)の精度を向上させて いる • 強化済みモデルとモンテカルロ木検索(MCTS)を用いて着手を選択している 【今後の展開】 • 完全情報ゲームの人工知能を用いた解き方の知見はAlphaGoの取り組みが、一定 の示唆を提供している • 2016年度末から登場した通称:Master(AlphaGoの改良版)については引き続き 注目していく 要旨
  3. 3. 1. 自己紹介 2. 囲碁の基本ルール〜AlphaGoと絡めて〜 3. AlphaGoについて 4. AlphaGoに注目する意義 5. 連絡先 目次
  4. 4. 1.自己紹介
  5. 5. 自己紹介:色々な方がAlphaGoを語っていますが。。 【人工知能関連】 • 人工知能、ディープラーニングなどの情報を専門的に扱う、「人工知能ビジネス創発 サロン」の管理人もやっています 【囲碁関連】 • 平成22年度 全日本囲碁選手権(団体戦)で全国制覇(中学時代は院生) 【その他】 • 新卒でシンクタンク(野村総研入社) • 最近は途上国ビジネス×国際協力に特に時間を割いています(こっちの話もしたい! !)
  6. 6. 2.囲碁の基本ルール 〜AlphaGoと絡めて〜
  7. 7. DeepMind「囲碁は世界で最も複雑なゲーム」 【オセロ】: (探索空間の大きさ:~10の60乗) – 1997年 Logistelloが世界チャンピオンに勝利 【チェス】: (探索空間の大きさ:~10の120乗) – 1997年 IBMのDeep Blueが世界チャンピオンに勝越し 【将棋】: (探索空間の大きさ:~10の220乗) – 2013年4月: GPS将棋がA級棋士に勝利 【囲碁】: (探索空間の大きさ:~10の360乗) – 2016年3月: AlphaGoがイ・セドル九段に勝利 – 2017年1月: AlphaGo(Master)がトッププロに60連勝!
  8. 8. 複雑と言われますが、囲碁は陣取りゲームです 【ルール1】 • 交互に打って囲った陣地の多い方が勝ちです 【ルール2】 • 先手の方が有利なのでコミ(6目半)があります 実はコミの大きさって国や時代によって変 わってきたんですよ! 私が囲碁を始めた時は5目半でした、また中 国は7目半だったりします AlphaGoはAlphaGo同士(同じ力量)での対 局を何億局も実施されているはず、コミの 大きさや、黒白どちらが有利か統計的回答 を得ているはずです
  9. 9. 囲んだら相手の石を取れますが例外があります 【ルール3】 • 囲んだら相手の石を取れます(終局後取った石の分だけ相手の陣 地を減らせます) 【ルール4】 • 例外はコウです(以下のような場合です)、一手他のところに打 たないと相手の石を取れません 無限ループ してしまうので
  10. 10. • 2016/03/09–15 Google DeepMind Challenge Match第3局終了後 AlphaGoはコウに弱いという都市伝説がありました 次戦以降どう 戦いますか? 高尾名人(2017/2時点) ・とりあえずコウくらい しか弱点が見つからない ・私ならとりあえずコウ を仕掛けていきますね!
  11. 11. 仮説:コウに弱い?(かった)は都市伝説ではないかも 【ルール4(コウ)】 • 一手他のところに打たないと相手の石を取れません! • AlphaGoは、最善手を評価する際、policy networksを用いています。 • コウの場合は、最善手が相手の石を取るという選択肢とpolicy networksで 選択していても、ルール上石を取れないということです。 • 今回のように人工知能専門の方と議論になるのが、教師あり学習を考えた 際、教師データは大きい順(効率的な順番)に着手しているということで 教育させます、但し、コウの場合は通常とは下記の点で異なります。 • 論文にもコウのことは特に記載されていませんのでわかりませんが、理論 的にコウに強いpolicy networksの学習は複雑(数が解決しますが)! コウの場合は二手連続して 打った際に大きな手がコウ 材になります ※補足説明します コウの場合は、現在最善な 着手だけではなく、過去に どこに打ったかを記憶しな くてはいけません ※補足説明します
  12. 12. 自滅はできません(投了しましょう!) 【ルール5】 • 自滅はできません(自分から取られる手は打てません) 白から打て ません 黒からは打 てますよ!
  13. 13. 3. AlphaGoについて
  14. 14. • 人間の脳を模した、ニューラルネットワークを深く(ディープ) にした手法 • 特に画像解析や物体認識などで顕著な成果を出し、注目を浴びま した • 完全情報ゲームの解き方は、AlphaGoでの知見でほとんど対応で きそうです その前にディープラーニングとは
  15. 15. 【よくある質問】 • 囲碁とかできる人ってめちゃくちゃ先まで読んでるんでしょ!? 【弱い囲碁AIの取り組み】 • 片っ端から場合の手を考えて囲碁させます(10の360乗です!!) 【強い囲碁AIの取り組み】 • 強い人の囲碁の記憶を学習させて囲碁させます • 人間が囲碁を習う際の取り組みも後者です、プロの先生の記録(棋譜) を勉強します • 全ての場合の手を考えているわけではなく、強い人は、ほとんど何も考 えずにも、この手はないと経験から最善手の候補を絞り込んで打ってい ます 囲碁の強い人とは何か?
  16. 16. • どの手が最善手か(一番勝つ可能性が高いのはどの手か?) 囲碁におけるディープラーニングの活用 【入力層】 【ディープラーニング】 人間の脳に模したモデル (深くすればいいというもの でも。。) 【出力層】 最善手の候補 候補A : 勝率70 候補B : 勝率66 候補C : 勝率60
  17. 17. 【二つネットワークが別個に構築される】 • 局面の勝率を評価するモデル(value networks) • 着手の勝率を評価するモデル(policy networks) 【人間においても二つが別個の判断から着手が決定される】 • 形勢判断(局面の勝率を評価) • 最善手の選択(着手の勝率を評価) 形勢が悪い場合、相手に正しく対応されると、本来悪手であっても、形勢判断に基づき 、相手のミスする可能性としない可能性、ミスした際としなかった際の形勢判断のバラ ンスで着手が決定されます。 アルファー碁のネットワーク構成
  18. 18. 【AlphaGoにおけるCNN(SL Policy network)の構成】 • 入力は48チャネル(黒石/白石の位置、石の生き死に・・・) • 中間層は13層構成 • 3,000万の盤面データをベースに50GPUで3.4億ステップ、3週間にわたり 学習を続けた結果、プロの指し手を57.0%の精度で予想することができる ようになった。(Mastering the game of Go with deep neural networks and tree search) アルファー碁の畳み込みニューラルネット(CNN)
  19. 19. 【教師データ】 • インターネット囲碁道場KGSの六~九段の棋譜 16万局(約3000万 局面) 【自己対戦】 • 「policy network」同士を対局させて、「RL policy network pρ」を 構築 • 「RL policy network pρ」を50GPUで1日かけて128万回自己対戦 を繰り返して強化学習 • 恐らく、強化学習の部分が最も人と差がつく(違いが明白)にな るポイントです(1日128万局は不可能!) 先生はプロ棋士と自分自身
  20. 20. 【モンテカルロ木検索 MCTS(Monte Carlo tree search)】 • 最善手の探索にはモンテカルロで勝率の高い着手を選びます • いい手でも負けうるので(確率)、調整の変数と勝率を組み合わ せて決定 • (w/n) + (2log t/n)1/2乗 が最大となるものを選びます • 人工知能囲碁の特徴として多く勝つのではなくて勝率の高い手が 選ばれる確率が高い • 自己対決の回数に応じて精度が向上される確率が高い アルファー碁はモンテカルロ木検索が用いられています 勝率 調整
  21. 21. 4.AlphaGoに注目する意義
  22. 22. 【アルファー碁から何を学ぶのか】 • 完全情報ゲームにおいては、囲碁という場合の数がほぼ無限に存在するゲ ームにおいても、少なくとも人間以上には、素敵な回答を人工知能は算出 することが可能 • そのためには、教師となるデータと、そのデータから構築されたモデルに より自己学習を繰り返すことで、精度をあげることが可能 • その際、モンテカルロなど異なるモデルとの複合により、より精度が向上 する可能性がある 【今後】 • 2016年度末に登場した改良版(通称:Master)は、今までのものを寄せ 付けない強さで、モデルの改善点については引き続き注目する 他の分野(特に完全情報ゲーム)に適応可能だから
  23. 23. 5.連絡先
  24. 24. 【連絡先:今井健太郎】 ※個人のSNSは更新していなく恐縮ですが、直接、ご用事がありましたら、 Messenger、DMなどでお気軽にご連絡頂ければ幸いです。 何か御用がある方はお気軽に ・https://www.facebook.com/kentaro.imai.90 ・https://twitter.com/imadon_kentaro
  25. 25. 参考ニュース(DeepMindより)

×