AITOP

5月11日

11:44

arXiv cs.AI（学术论文）

70

该论文针对命令行界面（CLI）智能体在大型代码库中面临的两个瓶颈：从部分观察中识别任务相关证据，以及稀疏的终端奖励分配。研究者提出了σ-Reveal，一种推理时选择token预算上下文的机制；以及Action Advantage Assignment（A³），一种利用抽象语法树（AST）的动作子链残差和轨迹边际的强化学习方法。此外，他们还构建了ShellOps数据集套件，用于评估仓库环境中的CLI任务。这项研究为CLI智能体学习提供了更结构化的奖励信号，有望提升智能体在复杂代码交互中的表现。

论文智能体强化学习代码库交互 CLI AST

推荐理由：该工作提出了CLI智能体学习的关键创新：σ-Reveal和A³分别解决了选择性观察和信用分配问题，对提升Agent在复杂代码环境中的自主操作能力有显著意义。