arXiv cs.LG@Alex DeWeese, Guannan Qu60这篇论文重新审视了受限策略类下的标准策略梯度方法,指出其容易陷入次优临界点,根本原因是传统策略梯度仅基于单步Q函数,具有短视性。作者提出了一种广义的k步策略梯度方法,通过耦合k步时间窗口内的随机性,能够逃离受限策略类MDP中的短视局部最优。理论证明该方法能以指数级性能逼近最优确定性策略,并且投影梯度下降和镜像下降在O(1/T)迭代次数内即可达到该指数级保证。该工作避免了常见的分布不匹配因子,在状态聚合、部分可观测合作多智能体等场景中具有重要应用价值。论文强化学习策略梯度理论突破多智能体推荐理由:本文从理论层面揭示了策略梯度方法短视性的根源,并提出了具有指数级收敛保证的改进方案。对强化学习从业者而言,这是一项重要的理论突破,有望推动受限策略类在复杂多智能体等场景的实际应用。