arXiv cs.LG@Alex DeWeese, Guannan Qu60这篇论文重新审视了受限策略类下的标准策略梯度方法,指出其容易陷入次优临界点,根本原因是传统策略梯度仅基于单步Q函数,具有短视性。作者提出了一种广义的k步策略梯度方法,通过耦合k步时间窗口内的随机性,能够逃离受限策略类MDP中的短视局部最优。理论证明该方法能以指数级性能逼近最优确定性策略,并且投影梯度下降和镜像下降在O(1/T)迭代次数内即可达到该指数级保证。该工作避免了常见的分布不匹配因子,在状态聚合、部分可观测合作多智能体等场景中具有重要应用价值。论文强化学习策略梯度理论突破多智能体推荐理由:本文从理论层面揭示了策略梯度方法短视性的根源,并提出了具有指数级收敛保证的改进方案。对强化学习从业者而言,这是一项重要的理论突破,有望推动受限策略类在复杂多智能体等场景的实际应用。
arXiv cs.AI(学术论文)68该研究提出一种参数重建算法,用于训练脉冲神经网络(SNN)。由于脉冲函数的不可微性,传统SNN训练依赖代理梯度,引入逐层累积的近似误差。研究团队扩展了并行前馈阈值网络的凸化理论至并行递归阈值网络,将SNN作为其结构化特例纳入框架。新算法在多个任务中作为独立方法或与代理梯度训练结合均表现出一致且显著的优势。消融实验验证了其数据扩展性和对模型配置的鲁棒性,表明该方法在大规模SNN训练中具有潜力。论文脉冲神经网络凸优化训练算法代理梯度理论突破推荐理由:该工作从理论层面解决了SNN训练中梯度近似误差累积的难题,提出的参数重建算法在多个基准任务上验证了有效性,为大规模低能耗SNN训练提供了新路径。