Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
ゲームと機械学習
やまいも
目次
• 自己紹介
• 「BirdHead」の紹介
• どうやってAIを作る?
• 強化学習
• デモ
自己紹介
• やまいも
• twitter: @yappy0625
• ブログ:いものやま。

http://yamaimo.hatenablog.jp
• iOSアプリ開発、Swift小ネタ
• 強化学習
• etc.
「BirdHead」の紹介
• 4人用のカードゲーム
• 2∼11のカードが5枚ずつ
• 手札が最初に10枚ずつ配られる
• カードを手札から基本的には1枚ずつ出していく
• 一番最後に出したカードが一番大きい人が負け
「BirdHead」の紹介
• カードを出すときのルール
• 一番最初の人は、何を出してもOK
• 二番目以降の人は、以下のどちらかを行える:
• 出されているカードで最大の数以上のカード
• 手札で一番小さいカード
• 一周したら場はクリアさ...
どうやってAIを作る?
• ランダムにカードを出す → 弱い
• 常に一番大きい数字を出す → 単調
• 細かく場合分け? → 無理
どうやってAIを作る?
• ランダム性があり、「正解」が何なのかが明確には
分からない
• 強化学習の手法を用いて、AI同士に自己対戦させ、
学習させる
強化学習
• エージェント(AI)が行動を選択
• 環境の状態が変化し、エージェントには報酬が与え
られる
• 報酬の期待値が最大になるように学習を行う
強化学習
• 環境は「報酬」を与えるだけで、「正解」を教えるわけでは
ない
• ゲームに勝ったら1点、負けたら-1点、など
• 「正解」が分からないゲームでも、勝った/負けたという
経験から、学習を進めていける
• いろいろな手法がある
• 動...
強化学習
• 「BirdHead」に対して、Sarsa(λ)法と線
形手法を用いて、AIに学習させた
• 線形手法は状態の価値を線形関数で近似
的に求める手法
• 特徴ごとに係数を用意
• 係数を学習で更新していく
• 状態の価値が高い手を選ぶ
デモ
Upcoming SlideShare
Loading in …5
×

ゲームと機械学習

1,577 views

Published on

第1回機械学習勉強会@HaLake
LT用スライド

[目次]
- 自己紹介
- 「BirdHead」の紹介
- どうやってAIを作る?
- 強化学習
- デモ

Published in: Technology
  • Be the first to comment

  • Be the first to like this

ゲームと機械学習

  1. 1. ゲームと機械学習 やまいも
  2. 2. 目次 • 自己紹介 • 「BirdHead」の紹介 • どうやってAIを作る? • 強化学習 • デモ
  3. 3. 自己紹介 • やまいも • twitter: @yappy0625 • ブログ:いものやま。
 http://yamaimo.hatenablog.jp • iOSアプリ開発、Swift小ネタ • 強化学習 • etc.
  4. 4. 「BirdHead」の紹介 • 4人用のカードゲーム • 2∼11のカードが5枚ずつ • 手札が最初に10枚ずつ配られる • カードを手札から基本的には1枚ずつ出していく • 一番最後に出したカードが一番大きい人が負け
  5. 5. 「BirdHead」の紹介 • カードを出すときのルール • 一番最初の人は、何を出してもOK • 二番目以降の人は、以下のどちらかを行える: • 出されているカードで最大の数以上のカード • 手札で一番小さいカード • 一周したら場はクリアされる • 最大の数を出していた人が次の一番手になる OKOKOK NG NG
  6. 6. どうやってAIを作る? • ランダムにカードを出す → 弱い • 常に一番大きい数字を出す → 単調 • 細かく場合分け? → 無理
  7. 7. どうやってAIを作る? • ランダム性があり、「正解」が何なのかが明確には 分からない • 強化学習の手法を用いて、AI同士に自己対戦させ、 学習させる
  8. 8. 強化学習 • エージェント(AI)が行動を選択 • 環境の状態が変化し、エージェントには報酬が与え られる • 報酬の期待値が最大になるように学習を行う
  9. 9. 強化学習 • 環境は「報酬」を与えるだけで、「正解」を教えるわけでは ない • ゲームに勝ったら1点、負けたら-1点、など • 「正解」が分からないゲームでも、勝った/負けたという 経験から、学習を進めていける • いろいろな手法がある • 動的計画法/モンテカルロ法/TD学習(Sarsa法、Q学習)
  10. 10. 強化学習 • 「BirdHead」に対して、Sarsa(λ)法と線 形手法を用いて、AIに学習させた • 線形手法は状態の価値を線形関数で近似 的に求める手法 • 特徴ごとに係数を用意 • 係数を学習で更新していく • 状態の価値が高い手を選ぶ
  11. 11. デモ

×