Learning to PredictWithout Looking Ahead:
World Model Without Forward Prediction
• 人間はあらゆるものを知覚しているわけではないという仮説から、外界
からの刺激を元に外界世界をシミュレートする”World Model”を構築する
• ”World Model”は外界世界の抽象表現を獲得し、潜在空間にて未来状態を
予測し、最適行動選択をする。これをVAEやRNNによって実現していた。
• 確率pで実環境か抽象表現のどちらかを観測するObservational Dropout
を新規提案。
• 直感的な理解としては、抽象表現=自分が想像した環境なので、確率p
で観測される実環境とのGAPを埋めようと勝手に学習してくれる寸法。
In doing so, we can coerce an agent into learning a world model
to fill in the observation gaps seen during reinforcement learning
without having to explicitly train the world model via teacher forcing.