AITOP

5月12日

19:11

arXiv cs.LG@Alex DeWeese, Guannan Qu

60

这篇论文重新审视了受限策略类下的标准策略梯度方法，指出其容易陷入次优临界点，根本原因是传统策略梯度仅基于单步Q函数，具有短视性。作者提出了一种广义的k步策略梯度方法，通过耦合k步时间窗口内的随机性，能够逃离受限策略类MDP中的短视局部最优。理论证明该方法能以指数级性能逼近最优确定性策略，并且投影梯度下降和镜像下降在O(1/T)迭代次数内即可达到该指数级保证。该工作避免了常见的分布不匹配因子，在状态聚合、部分可观测合作多智能体等场景中具有重要应用价值。

论文强化学习策略梯度理论突破多智能体

推荐理由：本文从理论层面揭示了策略梯度方法短视性的根源，并提出了具有指数级收敛保证的改进方案。对强化学习从业者而言，这是一项重要的理论突破，有望推动受限策略类在复杂多智能体等场景的实际应用。