Cautious Policy Programming: Exploiting KL Regularization in Monotonic Policy Improvement for Reinforcement Learning

Lingwei Zhu, Toshinori Kitamura, Takamitsu Matsubara

January 2021