arXiv cs.AI@Evan Rose, Tushin Mallick, Matthew D. Laws, Cristina Nita-Rotaru, Alina Oprea精选58论文提出APWA(Agent-Parallel Workload Architecture),一种分布式多智能体系统架构,旨在高效处理高度可并行化的智能体工作负载。APWA通过将工作流分解为无干扰的子问题,并利用独立资源并行处理,无需跨通信。该架构支持异构数据和多种并行模式,适用于广泛领域。实验表明,APWA能动态分解复杂查询为可并行工作流,并在先前系统完全失败的大规模任务上实现扩展。论文智能体分布式架构并行计算工作流分解APWA推荐理由:多智能体系统在复杂任务中常因推理和协调瓶颈而失效,APWA通过并行分解解决了这一痛点,做分布式AI系统或智能体编排的开发者值得关注其设计思路。
arXiv cs.LG@Jiayi Zhang, Yongfeng Gu, Jianhao Ruan, Maojia Song, Yiran Peng, Zhiguang Han, Jinyu Xiang, Zhitao Wang, Caiyin Yang, Yixi Ouyang, Bang Liu, Chenglin Wu, Yuyu Luo精选55论文提出AEvo,一种元编辑框架,将智能体演化视为交互环境,通过元代理观察累积的演化上下文(候选方案、反馈、轨迹、失败记录),并编辑控制未来演化的程序或代理上下文,而非直接生成下一个候选方案。该方法统一了基于程序和基于代理的演化方式,使累积证据在长周期搜索中可操作。在智能体和推理基准测试中,AEvo优于五种演化基线,相对最强基线提升26%。在三个开放式优化任务中,AEvo在相同迭代预算下达到最先进性能。论文智能体演化算法元编辑自动化优化论文推荐理由:AEvo解决了智能体演化中证据积累与机制修订脱节的问题,做自动化程序优化或长周期搜索的团队可以直接用这个框架提升效率。
arXiv cs.LG@Gaotang Li, Bhavana Dalvi Mishra, Zifeng Wang, Jun Yan, Yanfei Chen, Chun-Liang Li, Long T. Le, Rujun Han, George Lee, Hanghang Tong, Chen-Yu Lee, Tomas Pfister55RubricEM 是一种新型强化学习框架,用于训练深度研究智能体(如规划、搜索、证据评估和长报告合成的系统)。该框架引入了基于评分标准的策略分解和自省元策略进化,通过将研究轨迹分段并与自生成评分标准关联,利用阶段评分提供密集语义反馈。RubricEM-8B 模型在四个长研究基准上表现出色,性能接近专有深度研究系统。论文强化学习智能体研究智能体元学习推荐理由:该工作为奖励不可验证的长期任务提供了结构化强化学习新思路,通过评分标准统一策略执行、评判反馈和智能体记忆,对复杂研究智能体训练具有实践指导意义。
arXiv cs.LG@Junhao Shen, Teng Zhang, Xiaoyan Zhao, Hong Cheng65本文提出SLIM框架,针对大语言模型智能体在复杂任务中依赖外部技能的问题,将主动外部技能集视作动态优化变量,与策略学习联合更新。SLIM通过留一技能验证评估边际贡献,实施保留高价值技能、退休低贡献技能及扩展技能库三种生命周期操作。在ALFWorld和SearchQA基准测试中,SLIM平均比最佳基线高7.1个百分点,表明策略学习与外部技能保留并非互斥。该工作为基于技能的智能体强化学习提供了更通用的范式。论文智能体强化学习技能管理动态优化推荐理由:该方法突破了传统假设中技能集单调积累的限制,为智能体在资源受限下动态调整技能提供了理论框架,对提升AI智能体在复杂任务中的效率有重要参考价值。
arXiv: Anthropic@Xinyu Zhang, Zhicheng Dou, Deyang Li, Jianjun Tao, Shuo Cheng, Ruifeng Shi, Fangchao Liu, Enrui Hu, Yangkai Ding, Hongbo Wang, Qi Ye, Xuefeng Jin, Zhangchun Zhao65随着AI工程从单智能体转向多智能体协调工程,如何将多智能体协作协议编码为可移植资产成为关键瓶颈。Swarm Skills 提出了一种扩展自 Anthropic Skills 标准的可移植规范,将多智能体工作流(包括角色、流程、执行边界和自进化语义结构)变为一等公民。配套的自进化算法基于有效性、利用率和新鲜度等多维评分,自动从成功执行轨迹中提炼新技能并修补现有技能,无需人工干预。通过架构兼容性分析和 JiuwenSwarm 参考实现案例,展示了零适配器的跨智能体可移植性,避免框架锁定。该工作为多智能体系统提供了可分享、可自我改进的协作基础。论文智能体多智能体系统协调工程自进化开源/仓库推荐理由:解决了多智能体协作无法跨系统共享和自主改进的核心问题,为协调工程提供标准化的可移植规范和自进化机制,对构建灵活、自适应的多智能体系统具有实际指导意义。
arXiv cs.AI@Mingxi Zou, Zhihan Guo, Langzhang Liang, Zhuo Wang, Qifan Wang, Qingsong Wen, Irwin King, Lizhen Qu, Zenglin Xu65该论文提出了一个基于率失真理论的决策中心记忆框架,将智能体记忆优化定义为决策质量损失最小化问题,而非传统描述性标准。作者推导了遗忘边界和记忆-失真前沿,并开发了在线记忆学习器DeMem,仅在数据证明共享状态会导致决策冲突时更新分区。在合成诊断和长程对话基准测试中,DeMem在相同运行预算下带来持续性能提升,验证了“记忆应保存决策所需的区分,而非描述”的核心理念。论文智能体记忆压缩率失真理论长程对话推荐理由:这项工作为智能体记忆管理提供了一个理论基础,将记忆效率与最终决策质量直接挂钩,对于构建长周期自主智能体具有重要指导意义。
arXiv cs.AI@Roxana Geambasu, Mariana Raykova, Pierre Tholoniat, Trishita Tiwari, Lillian Tsai, Wen Zhang55该论文指出当前AI智能体普遍采用的“即时合成”范式(on-the-fly loop)缺乏严谨的软件工程流程,如迭代设计、严格测试、对抗性评估和分阶段部署,导致实际输出如同“临时原型”,在高风险场景下不可靠。作者提出将软件工程引入智能体循环,打造经过硬化、有确定性约束的生产级agent workflow,并通过复用分摊成本。为此,他们构想了一个“AI Workflow Store”,即存放硬化且可复用的工作流库,智能体可调用这些工作流以显著提升可靠性。论文还探讨了灵活性-鲁棒性张力下的研究挑战。论文智能体AI安全软件工程工作流存储推荐理由:该研究直击当前AI智能体可靠性不足的痛点,提出以工程化工作流复用替代即时合成,为构建生产级智能体系统提供了重要思路,对Agent落地高风险场景具有参考价值。
arXiv cs.AI@Simon Yu, Derek Chong, Ananjan Nandi, Dilara Soylu, Jiuding Sun, Christopher D Manning, Weiyan Shi65Shepherd提出了一种函数式编程模型,将元Agent对目标Agent的操作形式化为函数,并通过Lean实现核心操作。该系统记录每个Agent-环境交互作为类型化事件,形成类似Git的执行轨迹,支持分叉和重放任意历史状态。实验表明,Shepherd的分叉速度比Docker快5倍,重放时提示缓存复用率超过95%。在运行时干预中,实时监督将配对编码通过率从28.8%提升至54.7%;在反事实元优化中,分支探索在四个基准上提升最多11个百分点,同时减少高达58%的壁钟时间;在树强化学习中,选择性地分叉展开将TerminalBench-2性能从34.2%提升至39.4%。Shepherd为元Agent编程提供了高效基础设施,并已开源。论文智能体元Agent形式化验证运行时追踪开源/仓库推荐理由:该工作为元Agent的运行时追踪和干预提供了一种形式化、高性能的解决方案,尤其适合需要细粒度回溯和优化的复杂Agent系统开发。其Lean形式化和Git式执行轨迹的设计对AI安全与调试有实际参考价值。
arXiv: OpenAI(学术论文)45该研究通过分析五款AI编码工具(OpenAI, Copilot, Devin, Cursor, Claude Code)在29,585个Pull Request生命周期中的行为,提出了“发起者×批准者”分类法,将工具分为协作型(Cursor, Devin, Copilot)和辅助型(OpenAI, Claude)。协作型工具中,AI代理发起并推进PR工作,但合并权限几乎完全由人类保留;辅助型工具则更多由人类主导工作流程。研究揭示了代理操作与治理权限的脱节——自动化可执行合并,但日志仅记录执行者而非决策者。该工作为AI编码自动化中的监督与治理设计提供了分类工具和可复现分析框架。论文编码助手AI安全智能体协作/辅助Pull Request推荐理由:该研究系统量化了当前AI编码工具在PR工作流中的角色分工,揭示了代理发起与人类审批的解耦现象,对理解自动化治理边界和改进开发者工具设计具有实际参考价值。
arXiv cs.AI(学术论文)65这项研究探测了Gemma 3、Qwen 3、Qwen 2.5和Llama 3.1等12个指令微调模型(参数量从270M到27B),发现模型内部对所选工具的表示是线性的,可以通过激活干预来操控。通过添加两个工具平均激活的差值向量,可以在单轮名称提示上以77-100%的准确率(4B以上模型达93-100%)切换工具选择,并且随后的JSON参数会自动适应新工具的架构。此外,该方法还能提前标记潜在错误:在Gemma 3 12B和27B上,top-1与top-2工具差距最小的查询产生错误调用的概率是差距最大查询的14-21倍。因果效应集中在输出层对应目标工具首标记的行方向上,激活修补将影响定位到中后层少数注意力头。即使在基础模型中,内部状态也能在模型实际生成工具名称之前编码正确的工具选择,这表明预训练阶段已经形成了工具表征,指令微调只是将其连接到输出层。论文工具调用线性表征模型可解释性智能体推荐理由:该研究揭示了语言模型中工具选择的内在线性表征机制,为提升工具调用的可解释性和可控性提供了理论基础,对构建更可靠的智能体系统具有重要启发意义。
arXiv cs.AI(学术论文)70该论文针对命令行界面(CLI)智能体在大型代码库中面临的两个瓶颈:从部分观察中识别任务相关证据,以及稀疏的终端奖励分配。研究者提出了σ-Reveal,一种推理时选择token预算上下文的机制;以及Action Advantage Assignment(A³),一种利用抽象语法树(AST)的动作子链残差和轨迹边际的强化学习方法。此外,他们还构建了ShellOps数据集套件,用于评估仓库环境中的CLI任务。这项研究为CLI智能体学习提供了更结构化的奖励信号,有望提升智能体在复杂代码交互中的表现。论文智能体强化学习代码库交互CLIAST推荐理由:该工作提出了CLI智能体学习的关键创新:σ-Reveal和A³分别解决了选择性观察和信用分配问题,对提升Agent在复杂代码环境中的自主操作能力有显著意义。