RL’s Razor: Why On-Policy Reinforcement Learning Forgets Less

个人认为这篇文章只讲了一些显而易见的道理,并无很大参考价值,只是图比较好看,可以参考之处是对 KL 散度、分布偏移的一些实验验证,如下几图