4. 01 強化学習
価値Q(s, a)の最適化
・モンテカルロ法:1連の行動(エピソード)後、Qテーブルを更新
・Qラーニング:行動毎にQテーブルを更新
A B
C D
Qラーニング:
Q(s, a) = r(s, a) + γMax( Q( s´, a ))
γ:割引率(γは0~1, 0に近いほど目先重視)
r(s, a) : 報酬
初期のQテーブル
ご褒美Get!
Q(B, D) = 100
14. 05 Transformer
Transformer
・Seq2seq(RNNベースEncoder-Decoderモデル)よりも早くて精度が高い
・RNNもCNNも使わずに Attentionのみを使用 したEncoder-Decoderモデルで計算量も精度
も改善。しかも並列計算可能
・大枠が① Encoder-Decoderとなっており、②Self-Attentionと③Position-wise Feed-
Forward Networkが組み込まれている。
・Self Attention
Self-Attention層はSeq2Seqなどで付随される形で利用されていたAttention層(異なるデー
タ間の照応関係を獲得する)とは異なり、入力データ内の単語同士の照応関係情報(類似度
や重要度)を獲得する。Itが何を指しているかなどわかるようにもなった。
例)
従来のAttention I have a dog. ⇔ 私は犬を飼っています
⇒このとき、例えば「I」は、特に「私」や「飼っています」との照応関係を獲得する
Self-Attention I have a dog. ⇔ I have a dog.
⇒このとき、例えば「I」は、特に「I」、「have」との照応関係を獲得する