arXiv: Google DeepMind@Jiamin He, Samuel Neumann, Jincheng Mei, Adam White, Martha White45本文探讨了在连续动作强化学习中混合策略相对于单峰策略的优势及其实用性。作者指出,尽管混合策略在理论上更灵活,但标准算法如SAC未能充分利用这一优势,主要原因是缺乏低方差的重新参数化技巧。为此,他们提出了边际化重新参数化(MRP)估计器,证明了其比标准似然比方法方差更低。实验表明,MRP混合策略显著优于似然比方法,在某些任务上甚至达到或超越高斯策略。该研究将MRP混合策略从理论好奇转化为实用工具,为强化学习中的策略设计提供了新思路。论文强化学习混合策略连续控制重新参数化MRP推荐理由:该论文提出了MRP估计器,解决了混合策略在强化学习中的方差问题,实验验证了其有效性,对从事连续控制任务的研究者和工程师具有参考价值。