AITOP

5月13日

19:12

arXiv cs.AI@Rishabh Tiwari, Kusha Sareen, Lakshya A Agrawal, Joseph E. Gonzalez, Matei Zaharia, Kurt Keutzer, Inderjit S Dhillon, Rishabh Agarwal, Devvrit Khatri

精选70

这篇论文提出了一种名为Fast-Slow Training（FST）的框架，将LLM的参数视为“慢权重”，优化后的上下文视为“快权重”。快权重通过文本反馈吸收任务特定信息，慢权重则保持基础模型的一般推理能力。实验表明，FST在推理任务上比仅用强化学习（慢学习）样本效率提升3倍，且性能上限更高。FST训练的模型与基础LLM的KL散度降低70%，显著减少灾难性遗忘，并保持可塑性——在连续学习场景中，FST能持续获取新任务，而参数仅更新的RL方法会停滞。

论文持续学习灾难性遗忘上下文学习强化学习 Fast-Slow Training

推荐理由：这篇论文解决了LLM在持续学习中灾难性遗忘和可塑性丧失的痛点，做模型微调、持续学习或Agent长期记忆的团队值得关注——FST框架让你不用在参数更新和上下文学习之间二选一，直接结合两者优势。

19:12

arXiv cs.AI@Runhui Huang, Jie Wu, Rui Yang, Zhe Liu, Hengshuang Zhao

精选70

AlphaGRPO 是一个将 GRPO 强化学习方法应用于统一多模态模型（UMMs）的新框架，无需冷启动阶段即可增强多模态生成能力。它让模型能够执行推理式文本到图像生成（主动推断用户隐含意图）和自反思优化（自主诊断并修正生成结果中的偏差）。为解决真实场景多模态生成的稳定监督问题，论文提出分解可验证奖励（DVReward），利用 LLM 将复杂请求拆解为原子化、可验证的语义与质量子问题，再由通用 MLLM 评估并提供可解释反馈。实验表明，AlphaGRPO 在 GenEval、TIIF-Bench、DPG-Bench 和 WISE 等基准上取得稳健提升，并在未训练编辑任务的情况下在 GEdit 上获得显著改进。

论文多模态生成强化学习/GRPO 自反思分解奖励文本到图像

推荐理由：做多模态生成或强化学习对齐的团队值得关注——AlphaGRPO 用分解奖励解决了复杂指令的监督难题，让模型能自我反思修正，直接提升图像生成质量。

19:12

arXiv cs.AI@Yuanda Xu, Hejian Sang, Zhengze Zhou, Ran He, Zhipeng Wang, Alborz Geramifard

精选75

该论文提出了一种新的语言模型后训练原则：将稀缺的标注验证数据优先用于最强模型（教师）进行稀疏奖励强化学习（如GRPO），然后通过稠密奖励蒸馏（如OPD）将行为迁移到小模型（学生）。实验表明，在固定学生模型大小（Qwen3-1.7B）下，先对8B教师进行RL再蒸馏，效果优于直接在学生上运行GRPO。该原则强调避免在未准备好的策略上使用稀缺数据，而是通过“稀疏奖励发现→稠密迁移→学生侧稀疏奖励”的流程优化资源分配。

论文后训练强化学习知识蒸馏奖励设计 Qwen3

推荐理由：这篇论文为资源受限的团队提供了明确的训练策略——用最强模型做探索、用小模型做部署，做模型压缩或后训练的开发者可以直接参考这个稀疏到稠密的分配原则来提升效率。

19:12

arXiv cs.LG@Alan Z. Song, Yinjie Chen, Mu Nan, Rui Zhang, Jiahang Cao, Weijian Mai, Muquan Yu, Hossein Adeli, Deva Ramanan, Michael J. Tarr, Andrew F. Luo

精选60

VECA（Visual Elastic Core Attention）提出了一种新的视觉Transformer架构，用核心-外围结构替代传统的全对全自注意力。通过一组可学习的核心token作为通信接口，图像patch只与核心交互，计算复杂度从O(N²)降为O(N)。该模型在分类和密集预测任务上性能与最新视觉基础模型相当，同时大幅降低计算成本。VECA还支持在推理时弹性调整计算量与精度，为高分辨率视觉任务提供了可扩展的替代方案。

论文视觉Transformer 高效注意力核心-外围结构线性复杂度 VECA

推荐理由：ViT在高分辨率场景下计算量爆炸的问题终于有了优雅解法——VECA用线性复杂度实现竞争性能，做视觉模型部署或高分辨率图像处理的团队值得关注。

19:12

arXiv cs.AI@Xuhao Hu, Xi Zhang, Haiyang Xu, Kyle Qiao, Jingyi Yang, Xuanjing Huang, Jing Shao, Ming Yan, Jieping Ye

精选75

计算机使用智能体（CUA）在同时使用原子GUI操作（如点击、输入）和高级工具调用（如API文件操作）时，常因无法判断何时切换而导致执行路径次优。为解决这一问题，研究者提出ToolCUA，一种端到端智能体，通过分阶段训练范式学习最优GUI-工具路径选择。其核心包括：利用静态GUI轨迹合成工具库的轨迹缩放流水线、结合单步强化学习的工具引导GUI RFT，以及在线智能体强化学习优化。在OSWorld-MCP基准上，ToolCUA达到46.85%准确率，相比基线提升约66%，并比纯GUI设置提升3.9%，证明了混合动作空间训练的有效性。项目已开源。

论文计算机使用智能体 GUI自动化工具调用强化学习开源/仓库

推荐理由：做GUI自动化或智能体开发的团队，这个工作解决了混合动作空间路径选择的痛点——不用手动收集真实工具轨迹也能训练出高效智能体，建议点开看看方法细节。

19:12

arXiv cs.LG@Kexuan Shi, Hanxuan Li, Zeju Qiu, Yandong Wen, Simon Buchholz, Weiyang Liu

精选60

Pion 是一种用于大语言模型训练的新型优化器，通过左右正交变换更新权重矩阵，在整个训练过程中保持其奇异值不变。与 Adam 和 Muon 等加法优化器不同，Pion 在固定权重矩阵谱范数的同时调节其几何结构，提供了一种稳定的优化机制。实验表明，Pion 在 LLM 预训练和微调中均能作为标准优化器的稳定且有竞争力的替代方案。

论文优化器大语言模型谱保持正交变换 Pion

推荐理由：Pion 解决了传统优化器在训练中破坏权重矩阵谱结构的问题，做 LLM 训练的研究者和工程师值得关注，尤其适合追求训练稳定性和模型质量的团队。

5月12日

19:11

arXiv: DeepSeek@Weilin He, Arindam Sharma, Cristina David

65

该研究针对LLM代码生成缺乏正确性保证的问题，提出了一种基于语义距离的不确定性估计方法。与传统样本估计仅度量输出是否一致不同，新方法衡量候选程序执行行为的差异程度。在LiveCodeBench、MBPP等基准测试上，该方法在Python、Java、C++语言上均优于现有基线，且无需访问模型内部或调用LLM作为裁判，运行时间减少48%-79%。研究首次引入分类法厘清不确定性估计的设计维度，填补了语义感知估计这一空白。

论文代码生成不确定性估计语义距离 LLM可靠性编程助手

推荐理由：该工作为LLM代码生成提供了更实用的不确定性估计方案，在效率与效果上均取得显著提升，对提升代码生成系统的可靠性和安全性具有实践指导意义。

19:11

arXiv: DeepSeek@Joanna Szych, Anne Schwerk

45

该论文提出了一种树状折叠评估方法，用于评估LLM生成代码的正确性、质量和可用性。研究者基于一个复杂的计算机科学项目构建了正确性基准，并结合代码质量验证和开发者结构化审查。他们用该方法评估了GPT-4.1、DeepSeek-V3-0324和Claude Opus 4三个模型，发现开发者审查能揭示代码生产就绪状态等标准基准无法捕获的洞察。这表明仅靠正确性测试不足以全面评估LLM代码生成能力。

论文代码生成评估基准 GPT-4.1 DeepSeek-V3-0324 Claude Opus 4

推荐理由：该研究为LLM代码生成评估提供了更全面的方法论，强调了开发者反馈的重要性，对模型选择和改进实践具有参考价值。

19:11

arXiv: DeepSeek@Aojie Yuan, Zhiyuan Julian Su, Haiyue Zhang, Yi Nian, Yue Zhao

75

研究揭示了链式思维推理中的一个反直觉现象：语言模型能在内部（隐藏状态）精确检测自身推理错误（AUROC达0.95），但外在表达的信心与正确推理几乎无异（4.55/5 vs 4.87/5）。这一错误意识从推理第一步就存在（AUROC 0.79），并在Qwen、Llama、Phi等模型家族及DeepSeek-R1等推理模型上得到验证。然而，所有基于该信号的干预尝试（激活导向、最佳N选1、自我修正、激活修补）均失败，说明错误表征是计算质量的诊断指标，而非可修改的因果杠杆。这划定了解释性边界：推理中的错误表征与可编辑的事实知识本质上不同。

论文推理模型可解释性链式思维错误检测 AI安全

推荐理由：该研究揭示了当前可解释性方法的关键局限——高精度的内部错误检测并不能转化为有效修正，挑战了对CoT推理过程的因果干预假设。对AI安全与实践者有重要警示：依赖隐藏状态进行推理纠错可能行不通。

19:11

arXiv: DeepSeek@Xia Yang, Xuanyi Zhang, Hao Hu, Feng Ji

60

本研究提出一个评估LLM数学推理策略多样性的框架，通过80个AMC和AIME数学问题及217个参考解题策略，测试了四个前沿模型。在单一提示下，所有模型准确率达95%-100%；但在多策略提示下，Gemini生成184个有效策略，DeepSeek 152个，GPT 151个，Claude 110个。模型总共发现50个基准之外的新策略，但在几何和数论领域差距最大。重复运行测试中，最强模型三次运行仅恢复参考集71%的策略。研究认为策略多样性是评估数学推理能力的重要补充维度。

论文推理模型数学推理评估框架策略多样性

推荐理由：该研究揭示了当前LLM数学能力评估的盲区：高准确率不等于推理多样性。对于数学教育和技术应用而言，理解模型能否灵活切换解题思路至关重要，这一框架为未来评估提供了新方向。

19:11

arXiv: DeepSeek@Emile Anand, Abdullah Ateyeh, Xinyuan Cao, Max Dabagia

45

论文研究了连续潜在上下文（continuous latent context）如何帮助Transformer模型实现在线决策与学习。研究者构造了恒定深度的Transformer，通过少量潜在上下文令牌存储算法状态，成功实现了加权多数算法和Q-learning两种在线决策过程。实验表明，使用多课程目标训练的小型GPT-2风格模型，在长合成在线预测序列上表现优于Qwen-3-14B和DeepSeek-V3等更大更复杂的LLM。该工作为Transformer在需要长期自适应交互的场景中提供了一种简单有效的持续状态机制。

论文在线学习 Transformer 潜在上下文 Q-learning 加权多数算法

推荐理由：该工作通过理论构造和实验验证，说明了连续潜在上下文可作为Transformer在线学习的通用状态载体，为构建能长期自适应交互的轻量级AI系统提供了新思路。

19:11

arXiv: DeepSeek@Mingxiong Lin, Zhangquan Gong, Maowen Tang, Qian Li, Chuangchuang Wang, Jian Ma, Sutian Huang, Kai Tang, Haonan Lu

70

该论文指出GRPO算法在LLM数学推理中的两个效率不足：固定的KL惩罚系数过度限制策略探索，以及均匀采样忽略了中等难度题目的有效梯度信号。作者提出EXPO算法，包含两个轻量模块：AKL根据批次平均准确率动态调整KL正则化强度，GCS按照高斯分布为中等难度题目赋予更高采样权重。在DeepSeek-R1-Distill-Qwen-1.5B和Qwen3-8B-Base上的六项数学推理基准测试中，EXPO在AIME 2025 pass@32上提升了13.34个百分点，从63.33%升至76.67%，8B模型平均pass@32提升2.66。性能增益表明EXPO有效扩大了模型在固定推理成本下的探索边界。

论文 GRPO/强化学习数学推理自适应KL调节高斯课程采样策略优化

推荐理由：该工作针对GRPO在LLM数学推理中的实际瓶颈提出两项轻量改进，AKL与GCS模块即插即用，实验验证显著提升pass@32指标，对强化学习训练策略的优化具有直接指导意义。

19:11

arXiv: DeepSeek@Zeynel A. Uluşan, Burak S. Akbudak, Can S. Erer, Gözde Gül Şahin

45

近期神经定理证明器使用基于可验证奖励的强化学习（RLVR），但面临稀疏奖励问题：困难问题中部分进展无法获得信号。为此，研究者提出学习奖励模型以评估证明质量，但比较不同奖励模型通常需要昂贵的RL训练消融实验。FormalRewardBench是首个专门评估Lean 4形式化定理证明中奖励模型的基准，包含250个偏好对，每个正确证明通过5种专家设计的错误注入策略生成错误变体。评估包括前沿LLM（如Claude Opus 4.5）、判别型LLM（如CompassJudger-1-14B）、通用LLM（如Qwen2.5-72B-Instruct）以及专用定理证明模型（如DeepSeek-Prover-V2-7B）。结果显示前沿LLM表现最佳（59.8%），而专用定理证明器表现最差（24.4%），表明定理证明能力并未迁移到证明评估任务。

论文定理证明奖励模型 Lean 4 基准测试强化学习

推荐理由：该基准填补了形式化定理证明中奖励模型评估工具的空白，揭示专用定理证明模型在评估任务上的不足，为改进RL训练信号提供了明确方向。

19:11

arXiv: DeepSeek@Naicheng Li, Javad Dogani, Rui Wang, Kaitai Liang, Nikolaos Laoutaris

65

FLTorrent提出一种去中心化的联邦学习（FL）数据分发层，使用BitTorrent协议替代传统中央聚合器，解决性能瓶颈与隐私风险。其核心创新在于“预热阶段”，通过轮前混淆、随机延迟和协调调度（tracker不参与数据传输）实现轮内源不可链接性，防止攻击者通过P2P邻居关系推断更新来源。作者推导了传输归属后验概率的上界，并提出GreedyFastestFirst启发式调度，在100-500个节点时达到带宽最优值的约92%，预热开销稳定在约12%。在Gemma-7B、DeepSeek-R1-14B等大模型测试中，相对于纯BitTorrent仅增加6-10%端到端开销，且对抗观察型本地攻击者和合谋攻击均保持鲁棒。

论文联邦学习隐私保护 P2P网络 BitTorrent 去中心化

推荐理由：该工作首次在去中心化FL中实现轮内不可链接性与BitTorrent级效率共存，为大规模分布式机器学习隐私保护提供了实用方案，尤其适合对隐私敏感或需要弹性扩容的场景。

19:11

arXiv: DeepSeek@Claudia Benavides Cantos, Eduardo C. Garrido-Merchán

55

一项研究对比了Claude、GPT-4o、DeepSeek和Grok四种大型语言模型在西班牙和德国两个国家背景下分配固定社会预算的能力。每个模型在每个国家被询问六次，共生成48次分配结果，并与OECD参考预算进行比较。研究发现，所有模型存在系统性偏差：养老金分配不足近三倍，住房和就业分配过度分别达四倍和两倍。模型间主要差异不在于地缘政治倾向，而在于预算集中与分散策略，只有Claude表现出对国家背景的敏感性。研究认为，语言模型可辅助专家进行预算讨论，但不可替代。

论文 GPT Claude DeepSeek Grok 公共政策

推荐理由：该研究揭示了LLM在公共政策模拟中的系统性偏差，对AI辅助决策的可靠性提出警醒，值得政策制定者和AI开发者关注。

19:11

arXiv: DeepSeek@Gabriel Garcia

70

该研究揭示了当前思维链(CoT)忠诚度评估中的系统性问题：标准损坏研究（通过替换步骤为错误来测量准确性）实际上检测的是答案文本出现的位置，而非计算发生的位置。实验表明，在GSM8K数据集中，仅移除答案语句（保留所有推理步骤）即可将后缀敏感性降低约19倍（3B模型）。冲突答案实验显示，模型在消费时会系统性地遵循显式答案文本，即使推理过程中未提前确定答案（早期承诺低于5%）。该效应在14B规模下仍明显（8.5倍比率），但在32B时趋于消失。研究提出了三项前提条件作为最低标准：仅问题控制、格式表征、全位置扫描。

论文推理模型思维链评估方法认知科学大语言模型

推荐理由：该发现对当前CoT忠诚度评估方法的可靠性提出根本性质疑，提醒研究者注意数据格式的混淆效应，对评估模型推理能力具有方法论指导意义。

19:11

arXiv cs.LG@Wei Chow, Linfeng Li, Xian Sun, Lingdong Kong, Zefeng Li, Qi Xu, Hang Song, Tian Ye, Xian Wang, Jinbin Bai, Shilin Xu, Xiangtai Li, Junting Pan, Shaoteng Liu, Ran Zhou, Tianshu Yang, Songhua Liu

40

最近，研究者提出了一种基于掩码生成Transformer（MGT）的图像编辑新方法EditMGT，这是首个MGT编辑框架。与主流的扩散模型不同，MGT的局部化预测机制能天然将修改限制在目标区域，避免编辑结果扩散到其他部分。该方法通过多层注意力合并和区域保持采样实现精准编辑，并构建了包含200万高分辨率样本的数据集CrispEdit-2M。在多个基准测试中，EditMGT在仅96亿参数下实现了领先的图像相似度，编辑速度快了6倍。这表明MGT是扩散模型编辑的有力替代方案。

论文图像编辑掩码生成Transformer 扩散模型编辑数据集局部编辑

推荐理由：这项工作为图像编辑提供了一个全新思路，其局部化编辑特性和显著速度优势可能推动实用编辑工具的开发，值得关注。

19:11

arXiv cs.LG@Yash Akhauri, Mohamed S. Abdelfattah

65

SOL（Self-Optimizing Language Models）提出了一种新方法，让大语言模型在解码时动态调整每个token的计算量。它使用一个轻量级策略网络，基于模型隐藏状态，决定每步的注意力稀疏度、MLP激活剪枝和量化位宽。通过组相对策略优化（GRPO）训练，在固定token序列上采样不同计算调度，并权衡质量与预算。实验表明，相比统一预算分配，SOL在MMLU上可提升高达7.3%，并发现更好的质量-效率帕累托前沿。

论文推理效率动态预算分配强化学习量化/剪枝 LLM推理优化

推荐理由：该研究为推理效率优化提供了新思路，动态预算分配结合强化学习，可能在不牺牲质量的前提下显著降低计算成本。对部署大规模语言模型的企业和研究者有重要参考价值。

19:11

arXiv cs.LG@Tiberiu Musat

精选80

该论文证明在固定精度下，循环神经网络的权重范数最小值与输出二进制字符串的柯尔莫哥洛夫复杂度成对数比例。这一结论将权重衰减的泛化能力与所罗门诺夫通用先验联系起来，揭示了正则化的理论基础。研究表明，固定精度下任何权重范数都会坍缩为非零参数计数，因此该结论适用于任意范数正则化器。证明通过将图灵机程序编码为神经权重和枚举非零参数两个方向实现，其中对数因子由置换编码实现。该结果强调固定精度假设的关键性，因为无限精度下神经网络可能编码非可计算函数。

论文深度学习理论正则化柯尔莫哥洛夫复杂度泛化性

推荐理由：为权重衰减的优越性提供了理论解释，将神经网络正则化与计算复杂性理论直接关联，对理解深度学习泛化机理有重要参考价值。

19:11

arXiv cs.LG@Marcin Kostrzewa, Sebastian Tomczak, Roman Furman, Anna Poberezhna, Michał Furgała, Oleksii Furman, Maciej Zięba

65

企业破产预测是高风险金融任务，面临严重类别不平衡和多时间跨度预测挑战，但现有公共数据集规模小且稀缺。新基准V4FinBench包含来自维谢格拉德集团四国（2006-2021）的超过100万条公司年度记录，涵盖131个特征、六种预测时间范围，并采用综合财务困境标准。参考评估显示，经过不平衡感知微调的TabPFN在长周期F1和ROC-AUC上达到或超越梯度提升；而Llama-3-8B在每个时间范围的ROC-AUC上均落后于梯度提升。在外部美国破产数据集上，V4FinBench微调的TabPFN优于原始版本，表明学到了可迁移的财务困境结构。该基准已开源，以支持更真实的金融预测方法评估。

论文表格基础模型金融预测基准评测 TabPFN 不均衡学习

推荐理由：对于金融风控从业者，该基准提供了百万级真实财务数据及多时间范围评测框架，可有效检验表格型基础模型和LLM在不平衡场景下的预测能力。

19:11

arXiv cs.LG@Nikita Kezins, Urbas Ekka, Pascal Berrang, Luca Arnaboldi

65

红队测试在实际中表现良好的护栏分类器无法提供形式化保证，因为“有害行为”缺乏离散输入空间中的自然规范。研究者提出将验证从离散输入空间转移到分类器的预激活空间，通过定义包含已知有害提示表示的有害区域，并利用sigmoid分类头的单调性，能在O(d)时间内给出封闭形式的可靠性证明。该框架应用于三种毒性护栏分类器，所有超矩形配置均返回SAT（即存在安全漏洞），而概率性高斯混合模型证书则揭示了模型表示危害的结构稳定性差异：GPT-2和Llama-3.1-8B保持90%和80%的覆盖率，但BERT的安全保证在最优阈值下覆盖率骤降至55%。这些方法提供了超越传统红队测试的护栏分类器有效性新见解。

论文 AI安全形式化验证护栏分类器红队测试 LLM

推荐理由：该研究首次为LLM护栏分类器提供了形式化验证方法，揭示了高经验指标下隐藏的安全漏洞，对AI安全领域具有重要指导意义。

19:11

arXiv cs.LG@Gaotang Li, Bhavana Dalvi Mishra, Zifeng Wang, Jun Yan, Yanfei Chen, Chun-Liang Li, Long T. Le, Rujun Han, George Lee, Hanghang Tong, Chen-Yu Lee, Tomas Pfister

55

RubricEM 是一种新型强化学习框架，用于训练深度研究智能体（如规划、搜索、证据评估和长报告合成的系统）。该框架引入了基于评分标准的策略分解和自省元策略进化，通过将研究轨迹分段并与自生成评分标准关联，利用阶段评分提供密集语义反馈。RubricEM-8B 模型在四个长研究基准上表现出色，性能接近专有深度研究系统。

论文强化学习智能体研究智能体元学习

推荐理由：该工作为奖励不可验证的长期任务提供了结构化强化学习新思路，通过评分标准统一策略执行、评判反馈和智能体记忆，对复杂研究智能体训练具有实践指导意义。

19:11

arXiv cs.LG@Alex DeWeese, Guannan Qu

60

这篇论文重新审视了受限策略类下的标准策略梯度方法，指出其容易陷入次优临界点，根本原因是传统策略梯度仅基于单步Q函数，具有短视性。作者提出了一种广义的k步策略梯度方法，通过耦合k步时间窗口内的随机性，能够逃离受限策略类MDP中的短视局部最优。理论证明该方法能以指数级性能逼近最优确定性策略，并且投影梯度下降和镜像下降在O(1/T)迭代次数内即可达到该指数级保证。该工作避免了常见的分布不匹配因子，在状态聚合、部分可观测合作多智能体等场景中具有重要应用价值。

论文强化学习策略梯度理论突破多智能体

推荐理由：本文从理论层面揭示了策略梯度方法短视性的根源，并提出了具有指数级收敛保证的改进方案。对强化学习从业者而言，这是一项重要的理论突破，有望推动受限策略类在复杂多智能体等场景的实际应用。

19:11

arXiv cs.LG@Richie Yeung, Aleks Kissinger, Rob Cornish

52

研究人员提出了一种基于强化学习的方法来合成全连接量子比特设备的Clifford电路。代理通过将Clifford电路的辛矩阵表示简化为单位矩阵来学习门序列。引入了对量子比特重新标记具有等变性的新型神经网络架构，该架构与大小无关，允许单一策略应用于不同量子比特数。在6量子比特基准测试中，代理在毫秒内找到接近最优的解，99.2%情况下在数秒内找到最优解。在10量子比特训练后，可扩展至30量子比特，平均双量子比特门数低于Qiskit的Aaronson-Gottesman和贪婪合成器。

论文强化学习量子计算电路编译 Clifford电路等变神经网络

推荐理由：该方法展示了强化学习在量子电路优化中的潜力，特别是其等变性和规模无关性设计，可能降低对经典编译器的依赖，对未来量子计算编译技术具有参考价值。

19:11

arXiv cs.LG@Albert Alcalde, Leon Bungert, Konstantin Riedl, Tim Roith

45

本文从理论角度研究深度编码器型Transformer在推理时token演化的浓度现象。作者利用多粒子系统的收敛分析思想，证明token分布会在低温极限下迅速集中到由key、query、value矩阵诱导的投影映射的初始分布前推上，并在中等时间内保持亚稳态。具体地，Wasserstein距离以温度参数和推理时间的函数形式缩放，表明对于对数时间尺度，分布会集中到极限分布。数值实验验证了理论，并揭示了有限温度下后期由value矩阵谱支配的不同终端阶段。该工作为理解Transformer的注意力机制提供了数学基础。

论文 Transformer理论平均场浓度现象注意力机制数学分析

推荐理由：该论文为Transformer推断阶段的token分布行为提供了严格的数学分析，有助于解释大模型训练和推理中的稳定性现象，对理论研究和模型设计有参考价值。

19:11

arXiv cs.LG@Usman A. Khan, Joseph W. Durham

60

该研究将匿名多智能体路径规划（MAPF）问题建模为多边缘最优传输（MMOT）的一个特例，利用马尔可夫结构将指数级复杂度的MMOT简化为规模多项式的线性规划（LP）。在匿名设置下，证明了LP的可行性、全单模性以及解的空间-时间无重叠性质。为适应大规模问题，进一步引入薛定谔桥概率框架，通过熵正则化得到迭代Sinkhorn解，并基于其分数解构建简化LP，实现接近最优的整数解，显著降低计算复杂度。实验验证了该方法的最优性和可扩展性。

论文多智能体路径规划最优传输薛定谔桥线性规划

推荐理由：该工作从理论上建立了MAPF与最优传输之间的形式化联系，并提出了可扩展的求解框架，对机器人集群调度、仓储物流等实际应用具有重要参考价值。

19:11

arXiv cs.LG@Junhao Shen, Teng Zhang, Xiaoyan Zhao, Hong Cheng

65

本文提出SLIM框架，针对大语言模型智能体在复杂任务中依赖外部技能的问题，将主动外部技能集视作动态优化变量，与策略学习联合更新。SLIM通过留一技能验证评估边际贡献，实施保留高价值技能、退休低贡献技能及扩展技能库三种生命周期操作。在ALFWorld和SearchQA基准测试中，SLIM平均比最佳基线高7.1个百分点，表明策略学习与外部技能保留并非互斥。该工作为基于技能的智能体强化学习提供了更通用的范式。

论文智能体强化学习技能管理动态优化

推荐理由：该方法突破了传统假设中技能集单调积累的限制，为智能体在资源受限下动态调整技能提供了理论框架，对提升AI智能体在复杂任务中的效率有重要参考价值。

19:11

arXiv cs.LG@Chenyang Song, Weilin Zhao, Xu Han, Chaojun Xiao, Yingfa Chen, Zhiyuan Liu

65

DECO是一种针对端侧设备设计的稀疏MoE架构，旨在相同参数预算和训练Token数下达到稠密Transformer的性能。它采用可微分灵活的ReLU路由和可学习专家缩放，结合新激活函数NormSiLU，提高了路由专家激活比率的稳定性和内在稀疏性。实验显示，仅激活20%专家即可匹配稠密模型性能，专用加速核在真实硬件上相比稠密推理加速3倍。这一工作对推动MoE在资源受限设备上的实际部署具有重要意义。

论文稀疏MoE 端侧部署推理加速激活函数模型架构

推荐理由：DECO在保持性能和降低计算开销方面取得了良好平衡，其3倍加速和严格的稀疏性控制对端侧AI部署具有实际参考价值。

19:11

arXiv: Anthropic@Michael A. Riegler, Inga Strümke

75

研究者开发了开源对抗测试框架swarm-attack，利用多个1.2B参数轻量级LLM通过共享内存、并行探索和进化优化协同工作。对GPT-4o的越狱攻击有效危害率达45.8%，产生49个严重漏洞，而对Claude Sonnet-4成功率为0%。在软件漏洞发现实验中也以100%召回率在4分钟内复现了9个CWE漏洞，表明此前需限制发布的能力可在零成本下复现，关键因素是系统框架本身补偿了小模型的推理限制。

论文 AI安全多智能体/协同越狱攻击漏洞发现开源/仓库

推荐理由：该研究揭示了AI安全政策应聚焦系统而非模型本身，因为小模型通过协调框架即可实现高危险能力，这对当前以模型为中心的安全管控思路提出了重要挑战。

19:11

arXiv: Anthropic@Xinyu Zhang, Zhicheng Dou, Deyang Li, Jianjun Tao, Shuo Cheng, Ruifeng Shi, Fangchao Liu, Enrui Hu, Yangkai Ding, Hongbo Wang, Qi Ye, Xuefeng Jin, Zhangchun Zhao

65

随着AI工程从单智能体转向多智能体协调工程，如何将多智能体协作协议编码为可移植资产成为关键瓶颈。Swarm Skills 提出了一种扩展自 Anthropic Skills 标准的可移植规范，将多智能体工作流（包括角色、流程、执行边界和自进化语义结构）变为一等公民。配套的自进化算法基于有效性、利用率和新鲜度等多维评分，自动从成功执行轨迹中提炼新技能并修补现有技能，无需人工干预。通过架构兼容性分析和 JiuwenSwarm 参考实现案例，展示了零适配器的跨智能体可移植性，避免框架锁定。该工作为多智能体系统提供了可分享、可自我改进的协作基础。

论文智能体多智能体系统协调工程自进化开源/仓库

推荐理由：解决了多智能体协作无法跨系统共享和自主改进的核心问题，为协调工程提供标准化的可移植规范和自进化机制，对构建灵活、自适应的多智能体系统具有实际指导意义。

19:11

arXiv: Google DeepMind@Jiamin He, Samuel Neumann, Jincheng Mei, Adam White, Martha White

45

本文探讨了在连续动作强化学习中混合策略相对于单峰策略的优势及其实用性。作者指出，尽管混合策略在理论上更灵活，但标准算法如SAC未能充分利用这一优势，主要原因是缺乏低方差的重新参数化技巧。为此，他们提出了边际化重新参数化（MRP）估计器，证明了其比标准似然比方法方差更低。实验表明，MRP混合策略显著优于似然比方法，在某些任务上甚至达到或超越高斯策略。该研究将MRP混合策略从理论好奇转化为实用工具，为强化学习中的策略设计提供了新思路。

论文强化学习混合策略连续控制重新参数化 MRP

推荐理由：该论文提出了MRP估计器，解决了混合策略在强化学习中的方差问题，实验验证了其有效性，对从事连续控制任务的研究者和工程师具有参考价值。

19:11

arXiv cs.AI@Pedro Conde, Henrique Branquinho, Valerio Mazzone, Bruno Mendes, André Baptista, Nuno Moniz

55

现有AI渗透测试智能体评估多基于简化场景和预定义任务（如夺旗、远程代码执行），难以反映真实渗透测试的复杂性和开放性。本文提出新评估协议，从任务完成转向已验证漏洞发现，结合结构化真实数据与LLM语义匹配、二分图消歧等方法，支持多攻击面、多漏洞类别的复杂目标评估。该协议还包含效率指标、随机智能体重复评估及可持续实验缩减套件，旨在提供更贴近实战的智能体性能比较。为保障可复现性，已开源专家标注数据和代码。

论文 AI安全渗透测试智能体评估安全自动化

推荐理由：该协议填补了AI渗透测试智能体从受限benchmark到真实场景评估的空白，为红队工具选型和研发提供更可靠的参考标准。

19:11

arXiv cs.AI@Yixuan Yang, Mehak Arora, Ryan Zhang, Baraa Abed, Junseob Kim, Tilendra Choudhary, Md Hassanuzzaman, Kevin Zhu, Ayman Ali, Chengkun Yang, Alasdair Edward Gent, Victor Moas, Rishikesan Kamaleswaran

60

Clin-JEPA 提出了一种多阶段联合训练框架，将 JEPA（联合嵌入预测）范式扩展到电子健康记录（EHR）数据。该框架通过五阶段预训练课程（预测器预热、联合精调、EMA目标对齐、硬同步和预测器最终化），稳定地共同训练 Qwen3-8B 编码器和 92M 参数潜在轨迹预测器。在 MIMIC-IV ICU 数据上，Clin-JEPA 实现了潜在ℓ₁展开漂移在 48 小时范围内收敛（-15.7%），而基线方法发散（+3% 到 +4951%）。编码器学习到临床可分辨的潜在几何结构（病情恶化患者与稳定患者的潜在距离比基线高 4.83 倍 vs ≤2.62 倍）。单一骨干网络在多任务下游评估中优于强基线，平均 AUROC 在 ICareFM EEP 上达到 0.851，8 个二元风险任务上达到 0.883（分别比基线平均高 0.038 和 0.041）。

论文医疗AI 预训练模型 EHR JEPA 时序预测

推荐理由：该工作首次将 JEPA 范式成功应用于 EHR 轨迹建模，解决了联合训练不稳定和表示坍缩的关键问题，为医疗领域预训练大模型提供了一种高效且无需任务微调的方案。

19:11

arXiv cs.AI@Huynh Trung Kiet, Dao Sy Duy Minh, Tuan Nguyen, Chi-Nguyen Tran, Phu-Hoa Pham, Nguyen Lam Phu Quy, The Anh Han, Long Tran-Thanh

35

研究发现大语言模型在道德判断上并非文化中立。现有方法需特定国家偏好数据或模型白盒访问。本文提出DISCA方法，利用世界价值观调查数据构建国家化人格智能体面板，在推理时将内部观点分歧转化为无偏、损失规避的logit校正来引导模型输出。在20个国家和7个开源模型上，DISCA减少了10-24%的文化对齐错误，提升了推理时文化校准的可扩展性。该方法无需微调、公开数据可用，为服务全球多元道德偏好的长期需求提供了可行方案。

论文大语言模型文化对齐推理时校准人格智能体 World Values Survey

推荐理由：该工作首次在推理阶段解决多国文化对齐问题，面向API黑盒场景，且仅依赖公开调查数据，对AI产品的全球化部署具有实用参考价值。

19:11

arXiv cs.AI@Tz-Huan Hsu, Jheng-Hong Yang, Jimmy Lin

55

本研究探讨了在构建深度研究系统时，是否仅需词汇检索器BM25配合更强的大型语言模型即可实现高效结果。研究者提出了Pi-Serini搜索智能体，它具备检索、浏览和阅读文档三个工具。在测试集B-Plus上，Pi-Serini搭配gpt-5.5达到了83.1%的答案准确率和94.7%的证据召回率，超过了使用稠密检索的代理。通过调整BM25参数和增加检索深度，答案准确率提升了18.0%，证据召回率提升了11.1%和25.3%。这表明在推理能力更强的LLM辅助下，传统词汇检索仍能发挥重要作用。代码已开源。

论文搜索代理检索增强 BM25 大型语言模型开源/仓库

推荐理由：该研究挑战了稠密检索在深度搜索中不可或缺的假设，为构建轻量、高效、不依赖外挂向量库的搜索代理提供了新思路，值得关注推理模型与经典检索技术的结合。

19:11

arXiv cs.AI@Daniel Mitropolsky, Susan S. Hong, Riccardo Neumarker, Emanuele Rimoldi, Tomaso Poggio

45

arXiv论文提出广义图灵测试，通过不可区分性构建代理间智能比较形式化框架。该框架无需预设数据集或任务，可对任意两个智能体进行能力排序。研究分析了传递性条件并定义多类变体，在当代模型上的实验验证了其与传统排名的一致性。

论文图灵测试智能评估 AI安全 AI理论

推荐理由：这项工作为智能评估提供了统一理论基础，可能影响未来模型训练与评测标准的设计方向。

19:11

arXiv cs.AI@Haozhe Zhang, Kaichen Liu, Miaomiao Chen, Lei Li, Shaojie Yang, Cheng Peng, Hanjie Chen

65

研究者推出BenchCAD，一个统一的基准测试，用于评估多模态大语言模型在工业CAD代码生成上的能力。该基准包含17,900个可执行的CadQuery程序，涵盖106个工业零件系列，如锥齿轮、压缩弹簧和麻花钻。通过视觉问答、图像到代码生成等任务，BenchCAD测试模型在感知、参数抽象和可执行程序合成方面的综合能力。实验显示，当前前沿模型能恢复大致几何形状，但在精确参数和工业设计操作上常失败，如用简单拉伸替代扫掠、放样等关键操作。

论文代码生成多模态模型 CAD/设计基准测试工业自动化

推荐理由：该基准揭示了现有模型在工业级CAD生成上的显著不足，为模型优化和工业自动化提供了明确的评估标准。

19:11

arXiv cs.AI@Timothy Oladunni, Farouk Ganiyu Adewumi

70

本研究提出了吸引子-血管耦合理论（AVCT），该数学框架证明心脏吸引子几何结构包含足够用于AAMI标准血压估计的信息。通过在46名受试者（29,684个窗口）上的严格留一受试者交叉验证，基于LightGBM的模型实现了收缩压MAE为2.05 mmHg、舒张压MAE为1.67 mmHg，相关度r≥0.99，满足AAMI/IEEE SP10要求。仅使用智能手机相机提取的9个吸引子特征就匹配了ECG+PPG模型，表明仅用手机摄像头即可实现临床级血压追踪。该工作为无袖带血压监测提供了形式化的数学基础。

论文健康监测血压估计 PPG 可穿戴设备数学理论

推荐理由：AVCT为无袖带血压估计提供了严格的数学基础，并验证了仅用智能手机摄像头即可达到AAMI标准，对健康监测和可穿戴设备领域具有重要影响。这意味着更便捷、低成本的血压监测方案有望普及，但需在更大规模人群上验证。

19:11

arXiv cs.AI@Ishpuneet Singh, Gursmeep Kaur, Uday Pratap Singh Atwal, Guramrit Singh, Gurjot Singh, Maninder Singh

45

本文发布了BEACON（Behavioral Engine for Authentication & Continuous Monitoring），一个大型多模态行为数据集，包含28名玩家79次《Valorant》游戏会话的430GB同步数据，涵盖鼠标动力学、键盘事件、网络包、屏幕录制、硬件元数据和游戏配置。该数据集旨在填补现有行为认证基准在规模、模态和上下文同步方面的不足，适用于连续认证、行为画像、用户漂移和多模态表示学习研究。数据集和代码已在Hugging Face和GitHub上开源，为下一代行为指纹和网络安全模型提供可复现的基准。

论文多模态行为认证数据集 AI安全

推荐理由：该数据集以高精度、高认知负担的战术射击游戏为测试场景，为行为生物特征研究提供了真实且严苛的基准，对AI安全和连续认证领域具有重要参考价值。

19:11

arXiv cs.AI@Mingxi Zou, Zhihan Guo, Langzhang Liang, Zhuo Wang, Qifan Wang, Qingsong Wen, Irwin King, Lizhen Qu, Zenglin Xu

65

该论文提出了一个基于率失真理论的决策中心记忆框架，将智能体记忆优化定义为决策质量损失最小化问题，而非传统描述性标准。作者推导了遗忘边界和记忆-失真前沿，并开发了在线记忆学习器DeMem，仅在数据证明共享状态会导致决策冲突时更新分区。在合成诊断和长程对话基准测试中，DeMem在相同运行预算下带来持续性能提升，验证了“记忆应保存决策所需的区分，而非描述”的核心理念。

论文智能体记忆压缩率失真理论长程对话

推荐理由：这项工作为智能体记忆管理提供了一个理论基础，将记忆效率与最终决策质量直接挂钩，对于构建长周期自主智能体具有重要指导意义。