AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:收敛性分析×
5月11日
11:42
arXiv cs.LG(学术论文)
45
该论文首次提出基于值函数的指数效用强化学习算法,解决固定风险厌恶下折扣马尔可夫决策过程的优化问题。作者推导了两种Q值扩展,证明相关算子在L∞和sup-log/Thompson度量下是压缩的,并刻画了不动点。提出了两时间尺度Q学习算法,证明几乎必然收敛并给出有限时间收敛率;另有一时间尺度幂律算子算法,通过局部Lipschitz、单调性和Dini导数证明收敛。这项工作为风险敏感RL提供了理论基础。
论文强化学习风险敏感指数效用Q学习收敛性分析

推荐理由:该研究为指数效用目标下的RL提供了严格的值基算法与收敛证明,填补了理论空白。对风险敏感决策领域(如金融、自动驾驶)的实践者有重要参考价值。