9. Horizonのドキュメントをできる限り読み解く
- Document編
- DATA PREPROCESSING
- 多くのRLモデルのデータは、状態/アクションの連続したペアで学習している。本番の
環境では一般的にログに記録されることが多く、RLに適した形式ではない。Horizonで
は、収集されたログデータを変換するSparkパイプライン(タイムラインパイプライン
と呼ばれます)が含まれている。
- MDP ID
- Sequence Number
- State Features
- Action
- Action Probability
- Reward
- Possible Actions
- 内部的には、Hiveテーブルに対して書き込む。変換後もHiveテーブルに書き込む。
10. Horizonのドキュメントをできる限り読み解く
- Document編
- FEATURE NORMALIZATION
- 文献によれば、ニューラルネットワークは、データが正規分布していると、より速くよ
り良く学習することが示されている(Ioffe&Szegedy、2015)。
- RLは、大きな特徴量にさらされると不安定になる可能性があるため、特徴量の正規化
が非常に重要である。
- Horizonは学習データセットを自動的に分析し、各フィーチャに最適な変換関数と対応
する正規化パラメータを決定するワークフローが含まれている。
- そのワークフローでは、特徴がどのように正規化されるべきかを「正規化仕様」として
作成される。A “normalization specification” is then created which describes how the
feature should be normalized during training.