AITOP

5月12日

19:10

arXiv cs.AI@Simon Yu, Derek Chong, Ananjan Nandi, Dilara Soylu, Jiuding Sun, Christopher D Manning, Weiyan Shi

65

Shepherd提出了一种函数式编程模型，将元Agent对目标Agent的操作形式化为函数，并通过Lean实现核心操作。该系统记录每个Agent-环境交互作为类型化事件，形成类似Git的执行轨迹，支持分叉和重放任意历史状态。实验表明，Shepherd的分叉速度比Docker快5倍，重放时提示缓存复用率超过95%。在运行时干预中，实时监督将配对编码通过率从28.8%提升至54.7%；在反事实元优化中，分支探索在四个基准上提升最多11个百分点，同时减少高达58%的壁钟时间；在树强化学习中，选择性地分叉展开将TerminalBench-2性能从34.2%提升至39.4%。Shepherd为元Agent编程提供了高效基础设施，并已开源。

论文智能体元Agent 形式化验证运行时追踪开源/仓库

推荐理由：该工作为元Agent的运行时追踪和干预提供了一种形式化、高性能的解决方案，尤其适合需要细粒度回溯和优化的复杂Agent系统开发。其Lean形式化和Git式执行轨迹的设计对AI安全与调试有实际参考价值。