SlideShare a Scribd company logo
1 of 83
対称性推論によるポリシーの自己組織化と
            強化学習への応用
  Self-Organization of Policy by Symmetric Reasoning and
           Application of Reinforcement Learning




        東京電機大学大学院理工学研究科 情報学専攻

                10RMJ30 甲野 佑
概要 兼 目次

     強化学習の抱える問題
          ↓
    人間の推論傾向 対称性推論
           ↓
緩い対称性モデル( LS )と方策の自己組織化
          ↓
    強化学習のためのLSの拡張
          ↓
      実装の結果と結論
強化学習の抱える問題
          ↓
    人間の推論傾向 対称性推論
           ↓
緩い対称性モデル( LS )と方策の自己組織化
          ↓
    強化学習のためのLSの拡張
          ↓
      実装の結果と結論
実現のために現実が課す問題
強化学習,疎と密,正確さと速さのトレードオフ...
強化学習
         報酬


エージェント          環境

         行動


エージェントと環境の相互作用により学習する
主体的に環境に行動しなければならないため
教師あり,なし学習と異なる(応用範囲が広い)
強化学習の問題
 Goal line    例:Acrobot振り上げ課題
             非線形なダイナミクスを持つ複雑
             な物理制御課題.

             ・連続状態
             ・次元数が多い(次元の呪い)
             ・一試行で得られる情報が稀少

             現実では学習中にアクチュエータ
             の負荷が限界を迎えてしまう.
強化学習の問題
     Goal line    例:Acrobot振り上げ課題
                 非線形なダイナミクスを持つ複雑
                 な物理制御課題.

                 ・連続状態
                 ・次元数が多い(次元の呪い)
                 ・一試行で得られる情報が稀少

                 現実では学習中にアクチュエータ
                 の負荷が限界を迎えてしまう.

行動を決定するポリシー(方策)の問題?
トレードオフ
正                            速
確
さ                            さ

    考える                決める



          推論,判断,学習には
     正確さと速さのトレードオフが存在する
トレードオフ
正                            速
確
さ                            さ

    考える                決める



          推論,判断,学習には
     正確さと速さのトレードオフが存在する

人間は何らかのポリシーでトレードオフに対処している?
目的



人間の推論傾向に習ってトレードオフを考慮した
   強化学習手法を新たに考案する
強化学習の抱える問題
          ↓
    人間の推論傾向 対称性推論
           ↓
緩い対称性モデル( LS )と方策の自己組織化
          ↓
    強化学習のためのLSの拡張
          ↓
      実装の結果と結論
強化学習の抱える問題
          ↓
    人間の推論傾向 対称性推論
           ↓
緩い対称性モデル( LS )と方策の自己組織化
          ↓
    強化学習のためのLSの拡張
          ↓
      実装の結果と結論
人の推論の中に潜む対称性
認知の偏り,対称性,相互排他性,論理と確率,真理値...
推論


 与えられた前提 から 結論を導く
      あるいは
得られた情報 から 結果を予測する事
推論


    与えられた前提 から 結論を導く
         あるいは
   得られた情報 から 結果を予測する事




→人が行う対称性推論とそれに付随する諸性質に着目
対称性推論 -推論における対称性-




対称性:
推論における対称性の例として条件文を双条件的に解釈
する認知傾向が挙げられる.因果帰納に有効.
対称性推論 -推論における対称性-

対称性推論のメリット:
・稀少な情報を相互に関連づけ知識利用を促す
・多くは一般的知識と合致(言語等)

対称性推論のデメリット:
・規範的論理学と食い違う
・強く働き過ぎると推論の妨げになる
対称性推論 -推論における対称性-

 対称性推論のメリット:
 ・稀少な情報を相互に関連づけ知識利用を促す
 ・多くは一般的知識と合致(言語等)

 対称性推論のデメリット:
 ・規範的論理学と食い違う
 ・強く働き過ぎると推論の妨げになる



より広い範囲で扱うため論理から確率に拡張されている
対称性推論 -論理と確率-
      論理                  確率
          _ _                   _ _
p→q が真ならば q→p も真      P(q|p) ≠ P(p|q) 
    (対偶と同値)        (必ずしも等しくならない)



     しかし論理と確率では多くの面で異なる
   対称性の意味も論理と確率では異なるのでは?
対称性推論 -論理と確率-
      論理                  確率
          _ _                   _ _
p→q が真ならば q→p も真      P(q|p) ≠ P(p|q) 
    (対偶と同値)        (必ずしも等しくならない)



     しかし論理と確率では多くの面で異なる
   対称性の意味も論理と確率では異なるのでは?



           →整理と再定義が必要
対称性推論 -論理と確率-

真理値




          規範的な論理学:
       前件が偽(C=F) → 命題は真(T)
対称性推論 -論理と確率-
                  対偶が同値

真理値




          規範的な論理学:
       前件が偽(C=F) → 命題は真(T)


           人間の感覚は?
対称性推論 -論理と確率-
                  対偶が同値

真理値




          規範的な論理学:
       前件が偽(C=F) → 命題は真(T)


           人間の感覚は?


       →規範的な論理学に対する再考
対称性推論 -論理と確率-
奇数の裏は母音である(C→E)が真であると確かめるには?



  7           A        K        4


前件の肯定       後件の肯定    後件の否定    前件の否定
 (C=T)       (E=T)    (E=F)    (C=F)

              Wason選択課題:
  どのカードをめくるべきかという非常に単純な課題
         現実の様々な場面に見られる構造を持つ
対称性推論 -論理と確率-
奇数の裏は母音である(C→E)が真であると確かめるには?



   7          A        K        4


前件の肯定       後件の肯定    後件の否定    前件の否定
  (C=T)      (E=T)    (E=F)    (C=F)


規範的
(対偶)
対称性推論 -論理と確率-
奇数の裏は母音である(C→E)が真であると確かめるには?



   7          A        K        4


前件の肯定       後件の肯定    後件の否定    前件の否定
  (C=T)      (E=T)    (E=F)    (C=F)


規範的
(対偶)
対称性推論 -論理と確率-
奇数の裏は母音である(C→E)が真であると確かめるには?



   7          A        K        4


前件の肯定       後件の肯定    後件の否定    前件の否定
  (C=T)      (E=T)    (E=F)    (C=F)


規範的
(対偶)
対称性推論 -論理と確率-
奇数の裏は母音である(C→E)が真であると確かめるには?



   7          A        K        4


前件の肯定       後件の肯定    後件の否定    前件の否定
  (C=T)      (E=T)    (E=F)    (C=F)


規範的
(対偶)
対称性推論 -論理と確率-
             対称が同値

対称性
対称性推論 -論理と確率-
              対称が同値

 対称性



              全て同値

相互排他性
(対偶&対称)

  相互排他性は規範的に対偶を同値と見る性質と,
   対称を同値と見る性質(対称性)を併せ持ち,
 逆,裏,対偶,全て同値になる非常に強いバイアス
対称性推論 -論理と確率-

        命題が真である確率:




        完全対称モデルRSと一致
対称性推論 -論理と確率-

        命題が真である確率:




        完全対称モデルRSと一致
対称性推論 -論理と確率-

        命題が真である確率:




        完全対称モデルRSと一致
        人は全てを同値に感じる?
対称性推論 -論理と確率-

             命題が真である確率:




             完全対称モデルRSと一致
             人は全てを同値に感じる?




→緩く対称性,相互排他性を満たすLSに着目
強化学習の抱える問題
          ↓
    人間の推論傾向 対称性推論
           ↓
緩い対称性モデル( LS )と方策の自己組織化
          ↓
    強化学習のためのLSの拡張
          ↓
      実装の結果と結論
強化学習の抱える問題
          ↓
    人間の推論傾向 対称性推論
           ↓
緩い対称性モデル( LS )と方策の自己組織化
          ↓
    強化学習のためのLSの拡張
          ↓
      実装の結果と結論
自己組織化する緩い対称性
因果推論,意思決定,地の不変性,ポリシーの自己組織化...
Loosely Symmetric model



・対称性,相互排他性を緩く満たす
・因果帰納において人と相関が高い
・2本腕バンディット問題で良い成績
・地の不変性を持つ
                    ...etc
Loosely Symmetric model



・対称性,相互排他性を緩く満たす
・因果帰納において人と相関が高い
・2本腕バンディット問題で良い成績
・地の不変性を持つ
                    ...etc
Loosely Symmetric model
    因果帰納                          意思決定
        (推論)                  (2本腕バンディット問題)
原因候補Cと結果Eの                    原因候補Cと結果Eの
 因果的繫がりを推論                    因果的繫がりを推論

 原因候補は選択不可                     原因候補は選択可

目的は因果を推論する事                 目的は報酬を多く得る事

         LSはどちらにおいてもRSより優秀
 篠原修二, 田口亮, 桂田浩一, 新田恒雄(2007) “因果性に基づく信念形成モデルと
 N 本腕バンディット問題への適用”, 人工知能学会論文誌, 22, 1, 58–68.
Loosely Symmetric model



・対称性,相互排他性を緩く満たす
・因果帰納において人と相関が高い
・2本腕バンディット問題で良い成績
・地の不変性を持つ
                    ...etc
Loosely Symmetric model



・対称性,相互排他性を緩く満たす
・因果帰納において人と相関が高い
・2本腕バンディット問題で良い成績
・地の不変性を持つ
                    ...etc
Loosely Symmetric model
    要因Cの在,不在に関わらずバイアスの値が一定




Takahashi T., Nakano M., Shinohara S. (2010) “Cognitive symmetry: Illogical but
rational biases”, Symmetry: Culture and Science , 21, 1–3, 275–294 .
Loosely Symmetric model
    要因Cの在,不在に関わらずバイアスの値が一定




Takahashi T., Nakano M., Shinohara S. (2010) “Cognitive symmetry: Illogical but
rational biases”, Symmetry: Culture and Science , 21, 1–3, 275–294 .
Loosely Symmetric model
    要因Cの在,不在に関わらずバイアスの値が一定




         視知覚における地の不変性によって正当化

Takahashi T., Nakano M., Shinohara S. (2010) “Cognitive symmetry: Illogical but
rational biases”, Symmetry: Culture and Science , 21, 1–3, 275–294 .
Loosely Symmetric model



・対称性,相互排他性を緩く満たす
・因果帰納において人と相関が高い
・2本腕バンディット問題で良い成績
・地の不変性を持つ
                    ...etc
Loosely Symmetric model



・対称性,相互排他性を緩く満たす
・因果帰納において人と相関が高い
・2本腕バンディット問題で良い成績
・地の不変性を持つ
                    ...etc
Loosely Symmetric model
・モンテカルロ法へ応用
 大用庫智, 高橋達二 (2010) “因果帰納と意思決定を結ぶ緩い対称モデル”,
 日本認知科学会 第 27 回大会発表論文集, 799–800.


・教師あり学習へ応用
 神谷匠, 高橋達二(2011) “緩い対称性による語彙学習バイアスの発現”,
 日本認知科学会 第 28 回大会発表論文集, 542–548.


・強化学習へ限定的に応用
 Uragami D., Takahashi T., Alsubeheen H., Sekiguchi A. and Matsuo Y. (2011),
 “The Efficacy of Symmetric Cognitive Biases in Robotic Motion Learning”.
 Proceedings of the IEEE ICMA2011 August 7–10, Beijing, China, pp. 410–415.
Loosely Symmetric model
・モンテカルロ法へ応用
 大用庫智, 高橋達二 (2010) “因果帰納と意思決定を結ぶ緩い対称モデル”,
 日本認知科学会 第 27 回大会発表論文集, 799–800.


・教師あり学習へ応用
 神谷匠, 高橋達二(2011) “緩い対称性による語彙学習バイアスの発現”,
 日本認知科学会 第 28 回大会発表論文集, 542–548.


・強化学習へ限定的に応用
 Uragami D., Takahashi T., Alsubeheen H., Sekiguchi A. and Matsuo Y. (2011),
 “The Efficacy of Symmetric Cognitive Biases in Robotic Motion Learning”.
 Proceedings of the IEEE ICMA2011 August 7–10, Beijing, China, pp. 410–415.



              いずれも有用であるという結果
Loosely Symmetric model



・対称性,相互排他性を緩く満たす
・因果帰納において人と相関が高い
・2本腕バンディット問題で良い成績
・地の不変性を持つ
                    ...etc
Loosely Symmetric model
                       ?

                             ?


・対称性,相互排他性を緩く満たす
・因果帰納において人と相関が高い
・2本腕バンディット問題で良い成績
・地の不変性を持つ
                    ...etc

     → LSの考察と再定義
バイアス項と平均情報量




                                            スケール            制御項(平均情報量に近似)
                             p(1-p) & H
                            p(1−p) and H
         0.25




                                                  p(1−p)




                                                            二項分布の分散と同じ
                                                  H
         0.20




                                                            形を持つ.
         0.15
f(p)
  f(p)




                                                            Var(X)=np(1-p)
         0.10
         0.05




                                                            →不確実さの評価
         0.00




                                  p
                0.0   0.2   0.4       0.6   0.8       1.0

                                  p
バイアス項と平均情報量
確率の重み付き平均として書き換え:




             Free scale ( frequency )
                   C1              C2
        Calculate unobserved area ( Ground )
        C1               Ground                C2
                   Normalization
   C1         Ground           Ground          C2
           Normalized scale
  地の項Groundとして未観測領域を推定(偶然の補正)
バイアス項と平均情報量
確率の重み付き平均として書き換え:




          稀少   対称性,相互排他性による補正




    仮に要因Cに関する情報が稀少だとしても
    対称性,相互排他性によって補正される
既知と未知
       既知                  未知
定義:                 定義:
事象Cの観測割合 P(C)=1.0   事象Cの観測割合 P(C)=0.0




客観的な条件付確率に収束              0.5に収束




  観測度合いによって情報の不確実性を自己で評価.
ポリシーの自己組織化
         報酬


エージェント             環境

         行動
        ↑
行動はポリシー(方策)によって決定される
     探索? 報酬の最大化?
 正確さと速さのトレードオフが存在
ポリシーの自己組織化
ε-greedy方策:
確率εでランダムに行動(探索),確率(1.0 - ε)で学習した
価値関数に貪欲に行動(報酬の最大化).確率εを用いてト
レードオフに対応.
  →実際の学習ではεの初期値と減衰方法が問題になる

Softmax方策:
学習した価値関数とパラメータTからBoltzman分布に従
い,行動の確率分布を生成.分布に従い,乱数で行動を
決定する.確率分布を用いてトレードオフに対応.
  →実際の学習ではTの初期値と減衰方法が問題になる
ポリシーの自己組織化


既知の行動C1, 未知の行動C2に対するLSの評価の交差
ポリシーの自己組織化


既知の行動C1, 未知の行動C2に対するLSの評価の交差

              >


 P(E|C1)が0.5より高ければ既知の行動C1を選択.

      ポリシー:報酬の最大化
ポリシーの自己組織化


既知の行動C1, 未知の行動C2に対するLSの評価の交差

              <


 P(E|C1)が0.5より低ければ未知の行動C2を選択.

         ポリシー:探索
ポリシーの自己組織化


既知の行動C1, 未知の行動C2に対するLSの評価の交差




  参照点(ここでは0.5)に対する大小関係から
    乱数を使わずトレードオフに対応

→定性的評価からポリシーを自己組織化している
ポリシーの自己組織化
                                 UCB1                                                                                LS
                      P(E)                                 P(E)                                                      P(E)
        High                     Low             High                     Low           High                                                    Low
P(C1)                                                                           P(C1)
                 P(C1) > P(C2)                                                               P(C1) > P(C2)                           P(C1) > P(C2)
                                                                                              P(E) > 0.5                              P(E) < 0.5
               C1を選ぶ傾向が強い                                                                 C1を選ぶ傾向が強い                              C1を選ぶ傾向が強い
                                         Enough
                                       steps later
                 P(C1) ≒ P(C2)                                                              P(C1) ≒ P(C2)         P(C1) ≒ P(C2)     P(C1) ≒ P(C2)
                                                        観測報酬確率に従う                            P(E) > 0.5            P(E) ≒ 0.5        P(E) < 0.5
               観測報酬確率に従う                                                                  観測報酬確率に従う             観測報酬確率に従う         観測報酬確率に従う



                 P(C1) < P(C2)                                                               P(C1) < P(C2)                           P(C1) < P(C2)
                                                                                              P(E) > 0.5                              P(E) < 0.5
               C1を選ぶ傾向が強い                                                                 C1を選ぶ傾向が強い                              C1を選ぶ傾向が強い
P(C2)                                                                           P(C2)
         C1を選ぶ P(C1):C1の試行割合 P(C2): C2の試行割合                       :収束状態候補                C1を選ぶ P(C1):C1の試行割合 P(C2): C2の試行割合               :収束状態候補

         C2を選ぶ P(E)   :報酬獲得割合                                     :探索状態                  C2を選ぶ P(E)   :報酬獲得割合                             :探索状態




                単純な強化学習課題,2本腕バンディット問題において
                 環境の観測情報に対するポリシーの自己組織化を確認
                                                     →強化学習一般にも有用?
強化学習の抱える問題
          ↓
    人間の推論傾向 対称性推論
           ↓
緩い対称性モデル( LS )と方策の自己組織化
          ↓
    強化学習のためのLSの拡張
          ↓
      実装の結果と結論
強化学習の抱える問題
          ↓
    人間の推論傾向 対称性推論
           ↓
緩い対称性モデル( LS )と方策の自己組織化
          ↓
    強化学習のためのLSの拡張
          ↓
      実装の結果と結論
強化学習一般への拡張
参照点,N本腕バンディット問題,方策オン型学習...
強化学習への応用


必要事項:
・複数の要因への一般化
・参照点を任意に変更可能に
・方策オン型学習(Sarsa)への実装
複数要因における対称性

Cunknown                 C3

                E

           C1       C2

  複数要因に対する対称性,相互排他性とは?
複数要因における対称性

 Cunknown                 C3

                 E        G
            C1       C2

      観測情報から地の項Ground(G)を生成
地の不変性から地の項は全ての原因候補Cに対して一定
複数要因における対称性

Cunknown                 C3

                E        G
           C1       C2

着目事象Cと,地の項Gの間で対称性推論を行う
   地の不変性は対称性の汎化に寄与している
複数要因への一般化




   Cmax : 最も観測した原因候補
   Cmin : 最も観測していない原因候補

    Cmax とCmin の偏りで地の項を定義
観測度合いによって曖昧さの上限,下限を表現
複数要因への一般化
               0.75




                                                                                    0.8
               0.70




                                                                                    0.7
               0.65
step/episode




                                                                     step/episode
                                                        LS                                                                 LS




                                                                                    0.6
                                                        CP                                                                 CP
               0.60




                                                        RS                                                                 RS
                                                        UCB1




                                                                                    0.5
                                                                                                                           UCB1
                                                        LST
               0.55




                                                                                                                           LST




                                                                                    0.4
               0.50




                      0   100    200             300   400     500                        0   100   200             300   400     500

                                       episode                                                            episode

                          3本腕バンディット問題                                                         6本腕バンディット問題

                                従来のトーナメント形式の一般化に対し
                                        同等の成績のまま計算量は減少
強化学習への実装 -LSRL-




                                     0.75
LSを方策オン型学習であるSarsaに




                                     0.70
対して実装


                                     0.65
                      step/episode
                                                                             LS
                                                                             CP
Q : 状態行動対の価値関数
                                     0.60
                                                                             UCB1
                                                                             LSRL
τ : 状態行動対の観測度合い
                                     0.55




Rc : 参照点(目標,空腹度)
                                     0.50




                                            0   100   200             300   400     500

                                                            episode
強化学習の抱える問題
          ↓
    人間の推論傾向 対称性推論
           ↓
緩い対称性モデル( LS )と方策の自己組織化
          ↓
    強化学習のためのLSの拡張
          ↓
      実装の結果と結論
強化学習の抱える問題
          ↓
    人間の推論傾向 対称性推論
           ↓
緩い対称性モデル( LS )と方策の自己組織化
          ↓
    強化学習のためのLSの拡張
          ↓
      実装の結果と結論
対称性は学習を早めたか?
Acrobot振り上げ課題,荒い離散化,適格度トレース,結論...
エージェント
方策オン型学習(Sarsa)で学習を行う.
・ε-greedy
・Softmax
・LS

適格度トレースはλ=0.0,0.9の二種類を用意.

LSの参照点 Rc (目標値):
最も良いエピソードの総報酬/総ステップ数
エージェント
方策オン型学習(Sarsa)で学習を行う.
・ε-greedy
・Softmax
・LS

適格度トレースはλ=0.0,0.9の二種類を用意.

LSの参照点 Rc (目標値):
最も良いエピソードの総報酬/総ステップ数
             単純,直感的
Acrobot振り上げ課題
               Tiling1
   Goal line




                         Tiling2
Acrobot振り上げ課題 -結果-
               1600




                                                       Sarsa(0.0)ε-gleedy
                                                       Sarsa(0.9)ε-greedy
                                                       Sarsa(0.0) softmax
                                                       Sarsa(0.9) softmax
               1400




                                                       LSRL(0.0)
                                                       LSRL(0.9)
               1200
step/episode

               1000
               800




                      0    100   200             300          400           500

                                       episode
Acrobot振り上げ課題 -結果-
               1600




                                                       Sarsa(0.0)ε-gleedy
                                                       Sarsa(0.9)ε-greedy
                                                       Sarsa(0.0) softmax
                                                       Sarsa(0.9) softmax
               1400




                                                       LSRL(0.0)
                                                       LSRL(0.9)
               1200
step/episode

               1000




                                                                                  速く学習出来ている
               800




                      0    100   200             300          400           500

                                       episode
結論

・対称性推論は情報の汎化するため,稀少性,不確実性
 を含む推論課題に有用

・対称性と地の不変性をポリシーの自己組織化を実現

・上記の性質は強化学習課題において有用

・参照点の与え方等の改良で更なる発展が望める
主な参考文献
• Hattori M., Oaksford M. (2007) “Adaptive non-interventional heuristics for covariation detection in causal induction:
    Model comparison and rational analysis”, Cognitive Science, 31, 5, 765–814.
•   篠原修二, 田口亮, 桂田浩一, 新田恒雄(2007) “因果性に基づく信念形成モデルとN 本腕バンディット問題への適用”,
    人工知能学会論文誌, 22, 1, 58–68.
• Takahashi T., Nakano M., Shinohara S. (2010) “Cognitive symmetry: Illogical but rational biases”, Symmetry: Culture
    and Science , 21, 1–3, 275–294 .
• 大用庫知識, 甲野佑, 高橋達二(2011), “非定常N 本腕バンディット問題に対する人間の認知バイアスの適用”, 2011 年
    度人工知能学会全国大会2011 年度人工知能学会全国大会(第25 回) 予稿集, 1P2-12in.
• Tatsuji Takahashi,Kuratomo Oyo, Shuji Shinohara:“ A Loosely Symmetric Model ofCognition ”, Lecture Notes in
    Computer Science, No. 5778, Springer, pp. 234–241(2011).
• Uragami D., Takahashi T., Alsubeheen H., Sekiguchi A. and Matsuo Y. (2011), “The Efficacy of Symmetric Cognitive
    Biases in Robotic Motion Learning”. Proceedings of the IEEE ICMA2011 August 7–10, Beijing, China, pp. 410–415.
•   日本認知心理学会(監修), 楠見孝(編).『現代の認知心理学第3 巻思考と言語』, 2–29. 北大路書房. 2010 年7 月刊行.
• Takahashi T., Oyo K., Shinohara S. (2011) “A Loosely Symmetric Model of Cognition”,Lecture Notes in Computer
    Science, 5778, 234–241.
• Takahashi, T., Nakano, M., Shinohara, S. (2010) “Cognitive symmetry: Illogical but rational biases,” Symmetry:
    Culture and Science , Vol. 21, No. 1-3, pp. 275–294.
•   Hattori,M. & Oaksford,M. (2007) Adaptive non-interval heuristics for covariation detection in causal induction: Model
    comparison and rational analysis. Cognitive Science, 31,765-814.
•   Sutton, R. S., Barto, A. G. (2000) 強化学習. 森北出版. (三上, 皆川訳)
• Sutton, R. S. (1996) Generalization in Reinforcement Learning: Successful Examples Using Sparse Coarse Coding,
    Advances in Neural Information Processing Systems 8, pp. 1038-1044, MIT Press, 1996.
ご清聴ありがとうございました
  Thank you for your kind attention.

More Related Content

What's hot

Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)Koji Matsuda
 
MLaPP 2章 「確率」(前編)
MLaPP 2章 「確率」(前編)MLaPP 2章 「確率」(前編)
MLaPP 2章 「確率」(前編)Shinichi Tamura
 
(DL hacks輪読) Difference Target Propagation
(DL hacks輪読) Difference Target Propagation(DL hacks輪読) Difference Target Propagation
(DL hacks輪読) Difference Target PropagationMasahiro Suzuki
 
Rubinの論文(の行間)を読んでみる-傾向スコアの理論-
Rubinの論文(の行間)を読んでみる-傾向スコアの理論-Rubinの論文(の行間)を読んでみる-傾向スコアの理論-
Rubinの論文(の行間)を読んでみる-傾向スコアの理論-Koichiro Gibo
 
GEE(一般化推定方程式)の理論
GEE(一般化推定方程式)の理論GEE(一般化推定方程式)の理論
GEE(一般化推定方程式)の理論Koichiro Gibo
 
Semantic_Matching_AAAI16_論文紹介
Semantic_Matching_AAAI16_論文紹介Semantic_Matching_AAAI16_論文紹介
Semantic_Matching_AAAI16_論文紹介Masayoshi Kondo
 
サンプルで学ぶAlloy
サンプルで学ぶAlloyサンプルで学ぶAlloy
サンプルで学ぶAlloyNSaitoNmiri
 
テキストデータの理論的サンプリング
テキストデータの理論的サンプリングテキストデータの理論的サンプリング
テキストデータの理論的サンプリングNaohiro Matsumura
 
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)Shota Imai
 

What's hot (10)

Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)
 
MLaPP 2章 「確率」(前編)
MLaPP 2章 「確率」(前編)MLaPP 2章 「確率」(前編)
MLaPP 2章 「確率」(前編)
 
(DL hacks輪読) Difference Target Propagation
(DL hacks輪読) Difference Target Propagation(DL hacks輪読) Difference Target Propagation
(DL hacks輪読) Difference Target Propagation
 
Rubinの論文(の行間)を読んでみる-傾向スコアの理論-
Rubinの論文(の行間)を読んでみる-傾向スコアの理論-Rubinの論文(の行間)を読んでみる-傾向スコアの理論-
Rubinの論文(の行間)を読んでみる-傾向スコアの理論-
 
GEE(一般化推定方程式)の理論
GEE(一般化推定方程式)の理論GEE(一般化推定方程式)の理論
GEE(一般化推定方程式)の理論
 
Semantic_Matching_AAAI16_論文紹介
Semantic_Matching_AAAI16_論文紹介Semantic_Matching_AAAI16_論文紹介
Semantic_Matching_AAAI16_論文紹介
 
サンプルで学ぶAlloy
サンプルで学ぶAlloyサンプルで学ぶAlloy
サンプルで学ぶAlloy
 
テキストデータの理論的サンプリング
テキストデータの理論的サンプリングテキストデータの理論的サンプリング
テキストデータの理論的サンプリング
 
Tsulide
TsulideTsulide
Tsulide
 
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
 

Similar to LS for Reinforcement Learning

統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)Taiji Suzuki
 
幾何を使った統計のはなし
幾何を使った統計のはなし幾何を使った統計のはなし
幾何を使った統計のはなしToru Imai
 
[Tokyor08] Rによるデータサイエンス 第2部 第3章 対応分析
[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析
[Tokyor08] Rによるデータサイエンス 第2部 第3章 対応分析Yohei Sato
 
T検定と相関分析概要
T検定と相関分析概要T検定と相関分析概要
T検定と相関分析概要Junko Yamada
 
20170422 数学カフェ Part2
20170422 数学カフェ Part220170422 数学カフェ Part2
20170422 数学カフェ Part2Kenta Oono
 
FDRの使い方 (Kashiwa.R #3)
FDRの使い方 (Kashiwa.R #3)FDRの使い方 (Kashiwa.R #3)
FDRの使い方 (Kashiwa.R #3)Haruka Ozaki
 
Introduction to statistics
Introduction to statisticsIntroduction to statistics
Introduction to statisticsKohta Ishikawa
 
相互情報量.pptx
相互情報量.pptx相互情報量.pptx
相互情報量.pptxTanaka Hayato
 
トピックモデル
トピックモデルトピックモデル
トピックモデル貴之 八木
 
傾向スコアでみる ソーシャルネットワーク分析
傾向スコアでみる ソーシャルネットワーク分析傾向スコアでみる ソーシャルネットワーク分析
傾向スコアでみる ソーシャルネットワーク分析Hiroko Onari
 
第8回スキル養成講座講義資料.pdf
第8回スキル養成講座講義資料.pdf第8回スキル養成講座講義資料.pdf
第8回スキル養成講座講義資料.pdfkeiodig
 
Rでベイズをやってみよう!(コワい本1章)@BCM勉強会
Rでベイズをやってみよう!(コワい本1章)@BCM勉強会Rでベイズをやってみよう!(コワい本1章)@BCM勉強会
Rでベイズをやってみよう!(コワい本1章)@BCM勉強会Shushi Namba
 
意味表現の学習
意味表現の学習意味表現の学習
意味表現の学習nozyh
 
公平性を保証したAI/機械学習
アルゴリズムの最新理論
公平性を保証したAI/機械学習
アルゴリズムの最新理論公平性を保証したAI/機械学習
アルゴリズムの最新理論
公平性を保証したAI/機械学習
アルゴリズムの最新理論Kazuto Fukuchi
 
Foundations of Statistical Natural Language Processing (chapter 5)
Foundations of Statistical Natural Language Processing (chapter 5)Foundations of Statistical Natural Language Processing (chapter 5)
Foundations of Statistical Natural Language Processing (chapter 5)Akira Miyazawa
 
自然言語処理における機械学習による曖昧性解消入門
自然言語処理における機械学習による曖昧性解消入門自然言語処理における機械学習による曖昧性解消入門
自然言語処理における機械学習による曖昧性解消入門Koji Sekiguchi
 
演習II.第1章 ベイズ推論の考え方 Part 1.講義ノート
演習II.第1章 ベイズ推論の考え方 Part 1.講義ノート演習II.第1章 ベイズ推論の考え方 Part 1.講義ノート
演習II.第1章 ベイズ推論の考え方 Part 1.講義ノートWataru Shito
 
ベイズ統計入門
ベイズ統計入門ベイズ統計入門
ベイズ統計入門Miyoshi Yuya
 

Similar to LS for Reinforcement Learning (20)

統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
 
幾何を使った統計のはなし
幾何を使った統計のはなし幾何を使った統計のはなし
幾何を使った統計のはなし
 
[Tokyor08] Rによるデータサイエンス 第2部 第3章 対応分析
[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析
[Tokyor08] Rによるデータサイエンス 第2部 第3章 対応分析
 
T検定と相関分析概要
T検定と相関分析概要T検定と相関分析概要
T検定と相関分析概要
 
20170422 数学カフェ Part2
20170422 数学カフェ Part220170422 数学カフェ Part2
20170422 数学カフェ Part2
 
4thNLPDL
4thNLPDL4thNLPDL
4thNLPDL
 
大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得
 
FDRの使い方 (Kashiwa.R #3)
FDRの使い方 (Kashiwa.R #3)FDRの使い方 (Kashiwa.R #3)
FDRの使い方 (Kashiwa.R #3)
 
Introduction to statistics
Introduction to statisticsIntroduction to statistics
Introduction to statistics
 
相互情報量.pptx
相互情報量.pptx相互情報量.pptx
相互情報量.pptx
 
トピックモデル
トピックモデルトピックモデル
トピックモデル
 
傾向スコアでみる ソーシャルネットワーク分析
傾向スコアでみる ソーシャルネットワーク分析傾向スコアでみる ソーシャルネットワーク分析
傾向スコアでみる ソーシャルネットワーク分析
 
第8回スキル養成講座講義資料.pdf
第8回スキル養成講座講義資料.pdf第8回スキル養成講座講義資料.pdf
第8回スキル養成講座講義資料.pdf
 
Rでベイズをやってみよう!(コワい本1章)@BCM勉強会
Rでベイズをやってみよう!(コワい本1章)@BCM勉強会Rでベイズをやってみよう!(コワい本1章)@BCM勉強会
Rでベイズをやってみよう!(コワい本1章)@BCM勉強会
 
意味表現の学習
意味表現の学習意味表現の学習
意味表現の学習
 
公平性を保証したAI/機械学習
アルゴリズムの最新理論
公平性を保証したAI/機械学習
アルゴリズムの最新理論公平性を保証したAI/機械学習
アルゴリズムの最新理論
公平性を保証したAI/機械学習
アルゴリズムの最新理論
 
Foundations of Statistical Natural Language Processing (chapter 5)
Foundations of Statistical Natural Language Processing (chapter 5)Foundations of Statistical Natural Language Processing (chapter 5)
Foundations of Statistical Natural Language Processing (chapter 5)
 
自然言語処理における機械学習による曖昧性解消入門
自然言語処理における機械学習による曖昧性解消入門自然言語処理における機械学習による曖昧性解消入門
自然言語処理における機械学習による曖昧性解消入門
 
演習II.第1章 ベイズ推論の考え方 Part 1.講義ノート
演習II.第1章 ベイズ推論の考え方 Part 1.講義ノート演習II.第1章 ベイズ推論の考え方 Part 1.講義ノート
演習II.第1章 ベイズ推論の考え方 Part 1.講義ノート
 
ベイズ統計入門
ベイズ統計入門ベイズ統計入門
ベイズ統計入門
 

LS for Reinforcement Learning

Editor's Notes

  1. \n
  2. \n
  3. \n
  4. \n
  5. \n
  6. \n
  7. \n
  8. \n
  9. \n
  10. \n
  11. \n
  12. \n
  13. \n
  14. \n
  15. \n
  16. \n
  17. \n
  18. \n
  19. \n
  20. \n
  21. \n
  22. \n
  23. \n
  24. \n
  25. \n
  26. \n
  27. \n
  28. \n
  29. \n
  30. \n
  31. \n
  32. \n
  33. \n
  34. \n
  35. \n
  36. \n
  37. \n
  38. \n
  39. \n
  40. \n
  41. \n
  42. \n
  43. \n
  44. \n
  45. \n
  46. \n
  47. \n
  48. \n
  49. \n
  50. \n
  51. \n
  52. \n
  53. \n
  54. \n
  55. \n
  56. \n
  57. \n
  58. \n
  59. \n
  60. \n
  61. \n
  62. \n
  63. \n
  64. \n
  65. \n
  66. \n
  67. \n
  68. \n
  69. \n
  70. \n
  71. \n
  72. \n
  73. \n
  74. \n
  75. \n
  76. \n
  77. \n
  78. \n
  79. \n
  80. \n
  81. \n
  82. \n
  83. \n
  84. \n
  85. \n
  86. \n
  87. \n
  88. \n
  89. \n
  90. \n
  91. \n
  92. \n
  93. \n
  94. \n
  95. \n
  96. \n
  97. \n
  98. \n