Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

将棋ニューラルネットとこれからのゲームAI

2,205 views

Published on

将棋においてニューラルネットを使ってみた報告と、
これからのゲームAIはどうすればいいんだろう?という話

Published in: Science
  • Be the first to comment

将棋ニューラルネットとこれからのゲームAI

  1. 1. 将棋ニューラルネット と これからのゲームAI Katsuki Ohto @ YuriCat Machine Learning 15 minutes! Vol. 14 2017/7/29
  2. 2. About myself 大渡 勝己 (Katsuki Ohto) 東京大学大学院 修士2年 - ゲームAI 研究 これまで 12種類のゲームAI 大会(国内・海外)に参加 - 大富豪、カーリング、囲碁、将棋、ぷよぷよ 人狼、Trax、5五将棋、サイコロ将棋、 ターン制戦略ゲーム、Block Go 、Dots & Boxes
  3. 3. About myself 大渡 勝己 (Katsuki Ohto) 大富豪AIで人間(NEWS手越さん) と対戦 ← 大富豪AIについて話しました http://nge.jp/2017/04/16/post-139377
  4. 4. 近年のゲームAIの進歩 DQNに代表される、1つのドメインに特化しないシステムが進歩 Bellemare et al. (2016) Unifying Count-Based Exploration and Intrinsic Motivation
  5. 5. 近年のゲームAIの進歩 その一方で、特化型のゲームAIはさらなる高みに上っている Ponanza AlphaGo Google Deepmind社が開発した囲碁プログラム。 2016年3月にLee Sedolに4勝1敗、 2017年5月にKe Jieに3勝 山本一成氏、下山晃氏らが開発した将棋プログラム。 2017年に佐藤天彦名人に2勝
  6. 6. 将棋プログラムの進歩 2013〜2014年頃に人間のト ップと並んだと推測されてい る 現在:コンピュータ (家庭用デスクトップPC)が 「2秒思考すれば勝てない」 と若手プロが 発言しているという
  7. 7. これまでの将棋プログラム - コンピュータはノートパソコンでも秒間 300 万局面 程度を探索 - 人間は当然そんなには読めないので、 コンピュータは力任せの方法と揶揄されてきた - しかし、人間の脳の並列計算回路の方が 演算回数はずっと多いのでは?? - 「賢くない」が「力任せ」の演算こそニューラルネットの得意分野 「読みのゲーム」将棋においてもニューラルネットが使えるのか?
  8. 8. 将棋におけるニューラルネットの実力 Ponanza Chainer アピール文章 (2017年5月)より 手の予測を行い、探索のオーダリング(どの手から読むか)に利用
  9. 9. 参考 囲碁のニューラルネット AlphaGo論文:全13層の Convolutional Neural Network (狭い範囲のパターンマッチの積み重ね) その後、 - Residual Network にして深くしたり - Spatial Batch Normalization を使う などの性能向上が多方から報告されている (最新のAlphaGoの policy net は 40層という噂) Silver et al. (2016) Mastering the game of Go with Deep Neural Networks and Tree Search
  10. 10. 将棋ニューラルネットの構成(大渡案) - 将棋の駒の移動に合わせた畳み込みフィルタの利用 1レイヤーの形状 (2017コンピュータ将棋選手権時点) ※ただし、遅いので、現在では Ponanza Chainer の NN と同じ手法を使用 PFNの人が論文出してくれるはず!!
  11. 11. 将棋ニューラルネットの挙動 (ML15ではここで実際にプログラムを動かしてNN同士の試合を行いました)
  12. 12. ニューラルネットの構成(大渡案) - インプット情報 特化型のゲームAIでは、入力チャネルはRGBではなくマスに対応した特徴量が使われる - 盤上の駒 (14 × 2) 持ち駒 (歩は4枚、香桂銀金は2枚を限度とし、超過は無視) (16 × 2) 各マスに利いている駒の数 (自分と相手で別々、最大3つまで考慮) (3 × 2)
  13. 13. ニューラルネットの構成(大渡案) - インプット情報 特化型のゲームAIでは、入力チャネルはRGBではなくマスに対応した特徴量が使われる - 盤上の駒 (14 × 2) 持ち駒 (歩は4枚、香桂銀金は2枚を限度とし、超過は無視) (16 × 2) 各マスに利いている駒の数 (自分と相手で別々、最大3つまで考慮) (3 × 2) 盤面の位置に対応した特徴 = + + …
  14. 14. ニューラルネットの構成(大渡案) - インプット情報 特化型のゲームAIでは、入力チャネルはRGBではなくマスに対応した特徴量が使われる - 盤上の駒 (14 × 2) 持ち駒 (歩は4枚、香桂銀金は2枚を限度とし、超過は無視) (16 × 2) 各マスに利いている駒の数 (自分と相手で別々、最大3つまで考慮) (3 × 2) 盤面の位置に対応しない特徴 - 1チャネルを全て1で埋める - 何チャネル埋めるかにより数を表す
  15. 15. 将棋ニューラルネットの学習 Ponanza Chainer では1手1秒自己対戦棋譜 5億局面から教師あり学習 を行ったらしい 大渡個人で製作した結果、1700万局面で 51.8 % の一致 その後、レベルは低いが5億以上の中終盤局面を学習データに追加し たところ、 棋譜との一致率は落ちたが強さは大分向上 将棋は初期局面が1つなので、序盤の学習は簡単。 強さの向上には、序盤で一致率を稼ぐより中終盤の汎化の方が重要http://ppp- lab.sakura.ne.jp/ProgrammingPlacePlus/algorithm/data_str uct/007.html
  16. 16. ニューラルネットの探索への利用の現在 ニューラルネットは 「読まないわりには」 そこそこの手を返せて そこそこの評価ができる これまでの将棋プログラムと全く逆の特徴がある →アンサンブル効果に期待できる 一部ではニューラルネットのみの遅い探索で、 プロに迫るレベルのプログラムが出てきている 近い将来、人間以下の思考局面数で人間を超えるでしょう!
  17. 17. ゲームAIは人間の上位互換になるか? まずそんなことはない 20年前に人間を超えたチェスのプログラムであっても、 人間の方が正しい判断をできる局面は沢山ある (fortressと呼ばれる) レベルが上がると 「人間にとって強く見える」ことと 「勝率が高い」ことが一致しなくなってくる という問題がある
  18. 18. AIは人間の上位互換になるか? AI開発者 : 数字を追い求める AIに対する評価 : AIの尖った箇所を 見て判断されるかも? どちらが「正しい」のか? これからのAIに注目
  19. 19. ゲームAIのこれから DQNなどのend-to-endな手法をベースとして何でもできるようになるのか? → ある程度はできるようになるが、特化型はそれ以上の計算効率を出せるはず (何でもできるのであれば人間と同じ) しかし、これまで12個のゲームAI大会に参加した人の弁 「全てのゲームで高レベルなAIを作るには 人生が何回あっても足りない」 https://www.youtube.com/watch?v=Q4gTV4r0z
  20. 20. ゲームAIのこれから 特化型AIといえども、人が全て作ることは難しくなってきた 評価パラメータを手で決定 → 評価要素を手で決定して機械学習 → 特徴抽出を機械学習に任せる → … いつかプログラム自体をプログラムが書けるようになるだ ろうか? 特化型AIを作るためにも、より高度なAIの存在が求められている
  21. 21. ゲームAIは宇宙の限界への挑戦 人間に特化したビジネスAIとは違い、 数学で記述できるゲームのAIは人類の枠を超えた勝負 一つ一つのゲームでどれだけ成績を伸ばせるか? この宇宙の最高到達点を押し上げていく戦い 思考の極北を一緒に目指しましょう! 背景 https://ja.wikipedia.org/wiki/%E 5%AE%87%E5%AE%99

×