第2回NIPS読み会の発表資料です.learning to learn by gradient decent by gradient decent. OptimizerをLSTMとして表現し,逆誤差伝播によりそれを最適化. 目的関数の成分ごと独立に,パラメタを共有したLSTMで最適化を行うことで最適化すべきOptimizerのパラメタ数を小さく抑える.