Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
卒業論文発表スキルモデルに応じたゴルフプレー戦略の     Q学習による獲得     Q-learning based on Skill Model      for Acquiring Strategy of Golf 北海道大学 工学部情報...
はじめに スキル         ・ショットの正確性                    戦略 ・ボールの位置に対して             ・ショットの飛距離                       行動を決定するルール   関連研究...
コース状態と計算モデル     x:最初のボール位置  :n打目を打ち終わった後のボール位置                x                     x      0                        n     ...
バーチャルキャディ実現のためのアプローチ1. 計算モデルの構築  計算モデル  ボール位置   1打前のボール位置,行動,スキル,コース状態から          与えられる確率分布に従う  行動      クラブの選択,狙う位置  戦略   ...
検討項目検討1計算モデルから学習した結果と大会の公式記録を比較し、     モデル・学習結果が妥当か確認する検討2 期待スコアの減少を実現する戦略が学習できているか検討3スキルの高低によってとられる戦略がどのように異なるか
スキルに依存したボールの落下位置分布                  飛距離・方向が正規分布に従うと仮定する         y                           x’ = (x’, y’)        行動 a     ...
林と池がボール位置に与える影響h( xn1 ; xn1 , xn)  Phit  q( xn1)  Pthrouth  ( xn1  xn1)            q(x) : 森林定義関数               ...
期待スコアを最小化する最適化問題 戦略st、スキルskillとし、その場合の1ホールの期待スコアを E[ N (st, skill)] とする                                                   ...
Q学習の設定                                   報酬                                   OB : -2       報酬       その他 : -1             ...
実験パラメータ設定スキル           プロゴルファーを想定 ~ 公式記録から平均値を推測               driver 3-wood 5-wood 2-iron 3-iron 4-iron 5-iron 6-iron 7-i...
検討1:計算モデルから学習した結果と              大会の公式記録を比較                 Q学習       オーガスタの大会結果              プロ平均のスキル (マスターズ、2011)    平均スコ...
検討2:期待スコアの減少を実現する                 戦略が学習できているか        100                                                  ほとんどのコースで8割以上キ  ...
検討3:スキルの高低によって               とられる戦略がどのように異なるか               15番ホール:PAR 5            14番ホール:PAR 4        300               ...
まとめ1. ゴルフの期待スコアを計算する計算モデル  計算モデル         検討1: モデルが妥当であり、学習も正しく  ボール位置              行われていることがわかった             前のボール位置,行動,スキ...
Upcoming SlideShare
Loading in …5
×

Sugawara b

487 views

Published on

  • Be the first to comment

  • Be the first to like this

Sugawara b

  1. 1. 卒業論文発表スキルモデルに応じたゴルフプレー戦略の Q学習による獲得 Q-learning based on Skill Model for Acquiring Strategy of Golf 北海道大学 工学部情報エレクトロニクス学科 複雑系工学講座 調和系工学研究室 学部4年 菅原 翔悟
  2. 2. はじめに スキル ・ショットの正確性 戦略 ・ボールの位置に対して ・ショットの飛距離 行動を決定するルール 関連研究 クラブの選択「飛距離と方向性がゴルフのスコアに与える影響」 狙う地点 Mark Broadie, Soonmin Ko (2009)「大会の統計データからゴルファーの成績を評価 戦略とスコアの関係を調査したするHarold O Frieda, James Lambrinosa,James 研究は行われていないTynerb(2004)バーチャルキャディの実現 バーチャル 入力 キャディ 出力 コース情報 ゴルファーの 戦略 スキル コースの状況・使用者のスキルに応じた戦略を 指示することにより、スコアを改善させる
  3. 3. コース状態と計算モデル x:最初のボール位置  :n打目を打ち終わった後のボール位置 x x 0 n 1 x 2 x 0コース状態の集合 State = {teeing ground, Fairway,Rough,Bunker,WH,Woods,Green,Cup} ボール落下位置を求める計算モデルの要素 ゴルファーのスキル 考慮する 林、池、地面の状態(ラフ、バンカー、・・・) 天候(風、天気、・・・)、コースの起伏等の高さの情報 考慮しない ボールの転がり・回転量、・・・
  4. 4. バーチャルキャディ実現のためのアプローチ1. 計算モデルの構築 計算モデル ボール位置 1打前のボール位置,行動,スキル,コース状態から 与えられる確率分布に従う 行動 クラブの選択,狙う位置 戦略 ボールの位置から行動を決定するルール スキル ショットの飛距離,正確性 コース状態 フェアウェイ・ティーインググラウンドが基準 他の状態はショットの誤差が大きくなる2. 期待スコアの準最適値とその時の戦略を与える手法の作成 そのような手法を検討する段階で、 各手法の最適性を評価するために期待スコアの最適値が必要 Q学習により獲得
  5. 5. 検討項目検討1計算モデルから学習した結果と大会の公式記録を比較し、 モデル・学習結果が妥当か確認する検討2 期待スコアの減少を実現する戦略が学習できているか検討3スキルの高低によってとられる戦略がどのように異なるか
  6. 6. スキルに依存したボールの落下位置分布 飛距離・方向が正規分布に従うと仮定する y x’ = (x’, y’) 行動 a クラブの選択 club 水平打ち出し方向 θ r クラブ集合 Club = {Driver, 3-wood, 5-wood, 2-iron, 3-iron, 4-iron, 5-iron, 6-iron, 7-iron, 8-iron, 9-iron, PW, SW} θ xx = (x, y) スキル skill クラブ別の平均飛距離 r 飛距離の分散  r 2 方向の分散  θ 2    r  ~ N r, r2 ,   ~ N  ,  2  x  x  r cos  g ( xn1 ; xn , st, skill) y  y  r sin 
  7. 7. 林と池がボール位置に与える影響h( xn1 ; xn1 , xn)  Phit  q( xn1)  Pthrouth  ( xn1  xn1) q(x) : 森林定義関数  (x) : デルタ関数 t0 : 池の境界を表すパラメータ Phit :木に当たる確率 Pthrough :木に当たらない確率 林の影響 x n1 x n 1 x n 林の中のある位置にボールが存在する 確率は、林を通過する距離が長くなるに この面積の合計が木に当たる確率 つれ指数関数的に減少する ※δ(x) : x≠0の確率が0 池 となる関数池の影響池の中にボールが入った場合、 x n最後に池を横切った地点にボールを置き、打数に+1を加える x n 1 x n 1 j ( xn1 ; xn1 , xn , xn1)   [ xn1  {xn1  t 0 ( xn  xn1)}]   ( xn1  xn1)
  8. 8. 期待スコアを最小化する最適化問題 戦略st、スキルskillとし、その場合の1ホールの期待スコアを E[ N (st, skill)] とする  目的関数 :  E[ N ( st, skill )]   Pn  n    min (1) stSt n 0  xn : n打目打ち終わった後のボールの位置  xtee : ティーの位置    x: 0 最初のボール位置  xcup カップの位置 :・n打でカップに入る確率 Pn   p( xcup | x n 1 , st, skill ) p( x n 1 ) d x n 1     ) (2・x n 1にボールが存在する確率 p( x n 1 )   p( x n 1 | x n  2 , st, skill ) p( x n  2 ) d x n  2   ) (3・開始位置がティーインググラウンド  ( x0  xtee )  p( x0 )   ( x0  xtee )       ) (4 以外となる確率は0  0 ( x0  xtee )・x n 1にボールが存在する条件付き確率 p( x n 1 | x n , st, skill )  f ( x n 1 ; x n , x n 1 , st, skill )    g (x n 1 ; x n , st, skill )  h( x n 1 ; x n 1 , x n )  j ( x n 1 ; x n 1 , x n , x n 1 )dx n 1 dx n 1   ) (5
  9. 9. Q学習の設定 報酬 OB : -2 報酬 その他 : -1 行動選択 ε-greedy報酬 報酬カップまでの WH : -2距離に応じた期待パット数 状態空間 S 約2ヤード四方のグリッド行動空間 A ・方向 θ 0~360までの整数値 ・クラブ SWだけ10%刻みの力加減を考える Qの初期値 ・グリーン上 ~ 0学習率α=0.1、割引率γ=0.9 ・それ以外 ~ -PAR
  10. 10. 実験パラメータ設定スキル プロゴルファーを想定 ~ 公式記録から平均値を推測 driver 3-wood 5-wood 2-iron 3-iron 4-iron 5-iron 6-iron 7-iron 8-iron 9-iron PW SWプロ平均 r (yard) 269 243 230 225 212 203 194 183 172 160 148 136 124 σr 7.72 7.12 6.63 5.73 5.25 4.77 4.34 4.04 3.50 3.08 2.59 2.29 1.99プロ平均 σθ 1.81 1.69 1.57 1.51 1.39 1.33 1.27 1.21 1.15 1.03 0.91 0.78 0.66 σr 12.80 11.81 10.99 9.50 8.70 7.91 7.20 6.70 5.80 5.11 4.29 3.80 3.30unskillfull σθ 3.00 2.80 2.60 2.50 2.30 2.21 2.11 2.00 1.90 1.70 1.50 1.30 1.10 σr 4.66 4.29 4.00 3.46 3.17 2.88 2.62 2.44 2.11 1.86 1.56 1.38 1.20 skillfull σθ 1.09 1.02 0.95 0.91 0.84 0.80 0.77 0.73 0.69 0.62 0.55 0.47 0.40 100%パッティング カ ッ 80% プ 60%ボールがグリーンにのった場合 確 イ 40% 1 put 率カップまでの残り距離に応じて ン 20% 2 put す 3 put確率的にパット数を決定 る 0% 1 8 15 22 29 36 43 50 57 64 71 78 85 92 99 カップまでの残り距離(フィート)コース オーガスタ・ナショナル・ゴルフクラブ ~ 全18ホール
  11. 11. 検討1:計算モデルから学習した結果と 大会の公式記録を比較 Q学習 オーガスタの大会結果 プロ平均のスキル (マスターズ、2011) 平均スコア 73.68 72.43 平均パット数 1.91 1.665 サンドセーブ率(%) 27.43 40.29フェアウェイキープ率(%) 92.33 69.07 ・学習の結果、 パーオン率(%) 97.38 62.84 得られるスコア の平均値は実 6 際の大会結果 5 から大きく外れ平均 4 ていないス 3 ・学習が正しくコ マスターズア 2 Q学習 行われているこ 1 とが確認できた 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 コース番号
  12. 12. 検討2:期待スコアの減少を実現する 戦略が学習できているか 100 ほとんどのコースで8割以上キ フ 80 のフェアウェイキープ率ー ェ 60 →森やラフなど、プ ア率 ウ 40 スコアを悪くする場所に打ち( ェ 20 込まない戦略を学習%) イ 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 コース番号 10番ホール:ティーショット 1番ホール:ティーショット 学習した行動 学習した行動
  13. 13. 検討3:スキルの高低によって とられる戦略がどのように異なるか 15番ホール:PAR 5 14番ホール:PAR 4 300 300平 使 250 250均 用飛 し 200 200距 た離 ク 150 150 unskillfull( skillfullヤ ラ 100 100ー ブ 50 50ド の) 0 0 1打目 2打目 3打目 1打目 2打目 3打目 スキルが高いと、飛距離の長いクラブを優先しての選択し、 スキルが低いと、飛距離の短いクラブで刻んでグリーンを狙う
  14. 14. まとめ1. ゴルフの期待スコアを計算する計算モデル 計算モデル 検討1: モデルが妥当であり、学習も正しく ボール位置 行われていることがわかった 前のボール位置,行動,スキル,コースから与えられ る確率分布に従う 行動 クラブの選択,狙う位置 戦略 ボールの位置から行動を決定するルール スキル・コース 確率分布を決める定数パラメータ2. 期待スコアの準最適戦略を与えるヒューリスティック ヒューリスティック検討の段階で 各ヒューリスティックの最適性を評価するために 期待スコアの最適値が必要 Q学習により獲得 スコアを減少させる戦略の学習を実現 検討2: 検討3: スキルが異なる場合で戦略にどのような 違いが現れるか確認

×