AITOP

5月12日

19:11

arXiv cs.LG@Richie Yeung, Aleks Kissinger, Rob Cornish

52

研究人员提出了一种基于强化学习的方法来合成全连接量子比特设备的Clifford电路。代理通过将Clifford电路的辛矩阵表示简化为单位矩阵来学习门序列。引入了对量子比特重新标记具有等变性的新型神经网络架构，该架构与大小无关，允许单一策略应用于不同量子比特数。在6量子比特基准测试中，代理在毫秒内找到接近最优的解，99.2%情况下在数秒内找到最优解。在10量子比特训练后，可扩展至30量子比特，平均双量子比特门数低于Qiskit的Aaronson-Gottesman和贪婪合成器。

论文强化学习量子计算电路编译 Clifford电路等变神经网络

推荐理由：该方法展示了强化学习在量子电路优化中的潜力，特别是其等变性和规模无关性设计，可能降低对经典编译器的依赖，对未来量子计算编译技术具有参考价值。

19:11

arXiv cs.LG@Albert Alcalde, Leon Bungert, Konstantin Riedl, Tim Roith

45

本文从理论角度研究深度编码器型Transformer在推理时token演化的浓度现象。作者利用多粒子系统的收敛分析思想，证明token分布会在低温极限下迅速集中到由key、query、value矩阵诱导的投影映射的初始分布前推上，并在中等时间内保持亚稳态。具体地，Wasserstein距离以温度参数和推理时间的函数形式缩放，表明对于对数时间尺度，分布会集中到极限分布。数值实验验证了理论，并揭示了有限温度下后期由value矩阵谱支配的不同终端阶段。该工作为理解Transformer的注意力机制提供了数学基础。

论文 Transformer理论平均场浓度现象注意力机制数学分析

推荐理由：该论文为Transformer推断阶段的token分布行为提供了严格的数学分析，有助于解释大模型训练和推理中的稳定性现象，对理论研究和模型设计有参考价值。

19:11

arXiv cs.LG@Usman A. Khan, Joseph W. Durham

60

该研究将匿名多智能体路径规划（MAPF）问题建模为多边缘最优传输（MMOT）的一个特例，利用马尔可夫结构将指数级复杂度的MMOT简化为规模多项式的线性规划（LP）。在匿名设置下，证明了LP的可行性、全单模性以及解的空间-时间无重叠性质。为适应大规模问题，进一步引入薛定谔桥概率框架，通过熵正则化得到迭代Sinkhorn解，并基于其分数解构建简化LP，实现接近最优的整数解，显著降低计算复杂度。实验验证了该方法的最优性和可扩展性。

论文多智能体路径规划最优传输薛定谔桥线性规划

推荐理由：该工作从理论上建立了MAPF与最优传输之间的形式化联系，并提出了可扩展的求解框架，对机器人集群调度、仓储物流等实际应用具有重要参考价值。

19:11

arXiv cs.LG@Junhao Shen, Teng Zhang, Xiaoyan Zhao, Hong Cheng

65

本文提出SLIM框架，针对大语言模型智能体在复杂任务中依赖外部技能的问题，将主动外部技能集视作动态优化变量，与策略学习联合更新。SLIM通过留一技能验证评估边际贡献，实施保留高价值技能、退休低贡献技能及扩展技能库三种生命周期操作。在ALFWorld和SearchQA基准测试中，SLIM平均比最佳基线高7.1个百分点，表明策略学习与外部技能保留并非互斥。该工作为基于技能的智能体强化学习提供了更通用的范式。

论文智能体强化学习技能管理动态优化

推荐理由：该方法突破了传统假设中技能集单调积累的限制，为智能体在资源受限下动态调整技能提供了理论框架，对提升AI智能体在复杂任务中的效率有重要参考价值。

19:11

arXiv cs.LG@Chenyang Song, Weilin Zhao, Xu Han, Chaojun Xiao, Yingfa Chen, Zhiyuan Liu

65

DECO是一种针对端侧设备设计的稀疏MoE架构，旨在相同参数预算和训练Token数下达到稠密Transformer的性能。它采用可微分灵活的ReLU路由和可学习专家缩放，结合新激活函数NormSiLU，提高了路由专家激活比率的稳定性和内在稀疏性。实验显示，仅激活20%专家即可匹配稠密模型性能，专用加速核在真实硬件上相比稠密推理加速3倍。这一工作对推动MoE在资源受限设备上的实际部署具有重要意义。

论文稀疏MoE 端侧部署推理加速激活函数模型架构

推荐理由：DECO在保持性能和降低计算开销方面取得了良好平衡，其3倍加速和严格的稀疏性控制对端侧AI部署具有实际参考价值。

19:11

arXiv: Anthropic@Michael A. Riegler, Inga Strümke

75

研究者开发了开源对抗测试框架swarm-attack，利用多个1.2B参数轻量级LLM通过共享内存、并行探索和进化优化协同工作。对GPT-4o的越狱攻击有效危害率达45.8%，产生49个严重漏洞，而对Claude Sonnet-4成功率为0%。在软件漏洞发现实验中也以100%召回率在4分钟内复现了9个CWE漏洞，表明此前需限制发布的能力可在零成本下复现，关键因素是系统框架本身补偿了小模型的推理限制。

论文 AI安全多智能体/协同越狱攻击漏洞发现开源/仓库

推荐理由：该研究揭示了AI安全政策应聚焦系统而非模型本身，因为小模型通过协调框架即可实现高危险能力，这对当前以模型为中心的安全管控思路提出了重要挑战。

19:11

arXiv: Anthropic@Xinyu Zhang, Zhicheng Dou, Deyang Li, Jianjun Tao, Shuo Cheng, Ruifeng Shi, Fangchao Liu, Enrui Hu, Yangkai Ding, Hongbo Wang, Qi Ye, Xuefeng Jin, Zhangchun Zhao

65

随着AI工程从单智能体转向多智能体协调工程，如何将多智能体协作协议编码为可移植资产成为关键瓶颈。Swarm Skills 提出了一种扩展自 Anthropic Skills 标准的可移植规范，将多智能体工作流（包括角色、流程、执行边界和自进化语义结构）变为一等公民。配套的自进化算法基于有效性、利用率和新鲜度等多维评分，自动从成功执行轨迹中提炼新技能并修补现有技能，无需人工干预。通过架构兼容性分析和 JiuwenSwarm 参考实现案例，展示了零适配器的跨智能体可移植性，避免框架锁定。该工作为多智能体系统提供了可分享、可自我改进的协作基础。

论文智能体多智能体系统协调工程自进化开源/仓库

推荐理由：解决了多智能体协作无法跨系统共享和自主改进的核心问题，为协调工程提供标准化的可移植规范和自进化机制，对构建灵活、自适应的多智能体系统具有实际指导意义。

19:11

arXiv: Google DeepMind@Jiamin He, Samuel Neumann, Jincheng Mei, Adam White, Martha White

45

本文探讨了在连续动作强化学习中混合策略相对于单峰策略的优势及其实用性。作者指出，尽管混合策略在理论上更灵活，但标准算法如SAC未能充分利用这一优势，主要原因是缺乏低方差的重新参数化技巧。为此，他们提出了边际化重新参数化（MRP）估计器，证明了其比标准似然比方法方差更低。实验表明，MRP混合策略显著优于似然比方法，在某些任务上甚至达到或超越高斯策略。该研究将MRP混合策略从理论好奇转化为实用工具，为强化学习中的策略设计提供了新思路。

论文强化学习混合策略连续控制重新参数化 MRP

推荐理由：该论文提出了MRP估计器，解决了混合策略在强化学习中的方差问题，实验验证了其有效性，对从事连续控制任务的研究者和工程师具有参考价值。

19:11

arXiv cs.AI@Pedro Conde, Henrique Branquinho, Valerio Mazzone, Bruno Mendes, André Baptista, Nuno Moniz

55

现有AI渗透测试智能体评估多基于简化场景和预定义任务（如夺旗、远程代码执行），难以反映真实渗透测试的复杂性和开放性。本文提出新评估协议，从任务完成转向已验证漏洞发现，结合结构化真实数据与LLM语义匹配、二分图消歧等方法，支持多攻击面、多漏洞类别的复杂目标评估。该协议还包含效率指标、随机智能体重复评估及可持续实验缩减套件，旨在提供更贴近实战的智能体性能比较。为保障可复现性，已开源专家标注数据和代码。

论文 AI安全渗透测试智能体评估安全自动化

推荐理由：该协议填补了AI渗透测试智能体从受限benchmark到真实场景评估的空白，为红队工具选型和研发提供更可靠的参考标准。

19:11

arXiv cs.AI@Yixuan Yang, Mehak Arora, Ryan Zhang, Baraa Abed, Junseob Kim, Tilendra Choudhary, Md Hassanuzzaman, Kevin Zhu, Ayman Ali, Chengkun Yang, Alasdair Edward Gent, Victor Moas, Rishikesan Kamaleswaran

60

Clin-JEPA 提出了一种多阶段联合训练框架，将 JEPA（联合嵌入预测）范式扩展到电子健康记录（EHR）数据。该框架通过五阶段预训练课程（预测器预热、联合精调、EMA目标对齐、硬同步和预测器最终化），稳定地共同训练 Qwen3-8B 编码器和 92M 参数潜在轨迹预测器。在 MIMIC-IV ICU 数据上，Clin-JEPA 实现了潜在ℓ₁展开漂移在 48 小时范围内收敛（-15.7%），而基线方法发散（+3% 到 +4951%）。编码器学习到临床可分辨的潜在几何结构（病情恶化患者与稳定患者的潜在距离比基线高 4.83 倍 vs ≤2.62 倍）。单一骨干网络在多任务下游评估中优于强基线，平均 AUROC 在 ICareFM EEP 上达到 0.851，8 个二元风险任务上达到 0.883（分别比基线平均高 0.038 和 0.041）。

论文医疗AI 预训练模型 EHR JEPA 时序预测

推荐理由：该工作首次将 JEPA 范式成功应用于 EHR 轨迹建模，解决了联合训练不稳定和表示坍缩的关键问题，为医疗领域预训练大模型提供了一种高效且无需任务微调的方案。

19:11

arXiv cs.AI@Huynh Trung Kiet, Dao Sy Duy Minh, Tuan Nguyen, Chi-Nguyen Tran, Phu-Hoa Pham, Nguyen Lam Phu Quy, The Anh Han, Long Tran-Thanh

35

研究发现大语言模型在道德判断上并非文化中立。现有方法需特定国家偏好数据或模型白盒访问。本文提出DISCA方法，利用世界价值观调查数据构建国家化人格智能体面板，在推理时将内部观点分歧转化为无偏、损失规避的logit校正来引导模型输出。在20个国家和7个开源模型上，DISCA减少了10-24%的文化对齐错误，提升了推理时文化校准的可扩展性。该方法无需微调、公开数据可用，为服务全球多元道德偏好的长期需求提供了可行方案。

论文大语言模型文化对齐推理时校准人格智能体 World Values Survey

推荐理由：该工作首次在推理阶段解决多国文化对齐问题，面向API黑盒场景，且仅依赖公开调查数据，对AI产品的全球化部署具有实用参考价值。

19:11

arXiv cs.AI@Tz-Huan Hsu, Jheng-Hong Yang, Jimmy Lin

55

本研究探讨了在构建深度研究系统时，是否仅需词汇检索器BM25配合更强的大型语言模型即可实现高效结果。研究者提出了Pi-Serini搜索智能体，它具备检索、浏览和阅读文档三个工具。在测试集B-Plus上，Pi-Serini搭配gpt-5.5达到了83.1%的答案准确率和94.7%的证据召回率，超过了使用稠密检索的代理。通过调整BM25参数和增加检索深度，答案准确率提升了18.0%，证据召回率提升了11.1%和25.3%。这表明在推理能力更强的LLM辅助下，传统词汇检索仍能发挥重要作用。代码已开源。

论文搜索代理检索增强 BM25 大型语言模型开源/仓库

推荐理由：该研究挑战了稠密检索在深度搜索中不可或缺的假设，为构建轻量、高效、不依赖外挂向量库的搜索代理提供了新思路，值得关注推理模型与经典检索技术的结合。

19:11

arXiv cs.AI@Daniel Mitropolsky, Susan S. Hong, Riccardo Neumarker, Emanuele Rimoldi, Tomaso Poggio

45

arXiv论文提出广义图灵测试，通过不可区分性构建代理间智能比较形式化框架。该框架无需预设数据集或任务，可对任意两个智能体进行能力排序。研究分析了传递性条件并定义多类变体，在当代模型上的实验验证了其与传统排名的一致性。

论文图灵测试智能评估 AI安全 AI理论

推荐理由：这项工作为智能评估提供了统一理论基础，可能影响未来模型训练与评测标准的设计方向。

19:11

arXiv cs.AI@Haozhe Zhang, Kaichen Liu, Miaomiao Chen, Lei Li, Shaojie Yang, Cheng Peng, Hanjie Chen

65

研究者推出BenchCAD，一个统一的基准测试，用于评估多模态大语言模型在工业CAD代码生成上的能力。该基准包含17,900个可执行的CadQuery程序，涵盖106个工业零件系列，如锥齿轮、压缩弹簧和麻花钻。通过视觉问答、图像到代码生成等任务，BenchCAD测试模型在感知、参数抽象和可执行程序合成方面的综合能力。实验显示，当前前沿模型能恢复大致几何形状，但在精确参数和工业设计操作上常失败，如用简单拉伸替代扫掠、放样等关键操作。

论文代码生成多模态模型 CAD/设计基准测试工业自动化

推荐理由：该基准揭示了现有模型在工业级CAD生成上的显著不足，为模型优化和工业自动化提供了明确的评估标准。

19:11

arXiv cs.AI@Timothy Oladunni, Farouk Ganiyu Adewumi

70

本研究提出了吸引子-血管耦合理论（AVCT），该数学框架证明心脏吸引子几何结构包含足够用于AAMI标准血压估计的信息。通过在46名受试者（29,684个窗口）上的严格留一受试者交叉验证，基于LightGBM的模型实现了收缩压MAE为2.05 mmHg、舒张压MAE为1.67 mmHg，相关度r≥0.99，满足AAMI/IEEE SP10要求。仅使用智能手机相机提取的9个吸引子特征就匹配了ECG+PPG模型，表明仅用手机摄像头即可实现临床级血压追踪。该工作为无袖带血压监测提供了形式化的数学基础。

论文健康监测血压估计 PPG 可穿戴设备数学理论

推荐理由：AVCT为无袖带血压估计提供了严格的数学基础，并验证了仅用智能手机摄像头即可达到AAMI标准，对健康监测和可穿戴设备领域具有重要影响。这意味着更便捷、低成本的血压监测方案有望普及，但需在更大规模人群上验证。

19:11

arXiv cs.AI@Ishpuneet Singh, Gursmeep Kaur, Uday Pratap Singh Atwal, Guramrit Singh, Gurjot Singh, Maninder Singh

45

本文发布了BEACON（Behavioral Engine for Authentication & Continuous Monitoring），一个大型多模态行为数据集，包含28名玩家79次《Valorant》游戏会话的430GB同步数据，涵盖鼠标动力学、键盘事件、网络包、屏幕录制、硬件元数据和游戏配置。该数据集旨在填补现有行为认证基准在规模、模态和上下文同步方面的不足，适用于连续认证、行为画像、用户漂移和多模态表示学习研究。数据集和代码已在Hugging Face和GitHub上开源，为下一代行为指纹和网络安全模型提供可复现的基准。

论文多模态行为认证数据集 AI安全

推荐理由：该数据集以高精度、高认知负担的战术射击游戏为测试场景，为行为生物特征研究提供了真实且严苛的基准，对AI安全和连续认证领域具有重要参考价值。

19:11

arXiv cs.AI@Mingxi Zou, Zhihan Guo, Langzhang Liang, Zhuo Wang, Qifan Wang, Qingsong Wen, Irwin King, Lizhen Qu, Zenglin Xu

65

该论文提出了一个基于率失真理论的决策中心记忆框架，将智能体记忆优化定义为决策质量损失最小化问题，而非传统描述性标准。作者推导了遗忘边界和记忆-失真前沿，并开发了在线记忆学习器DeMem，仅在数据证明共享状态会导致决策冲突时更新分区。在合成诊断和长程对话基准测试中，DeMem在相同运行预算下带来持续性能提升，验证了“记忆应保存决策所需的区分，而非描述”的核心理念。

论文智能体记忆压缩率失真理论长程对话

推荐理由：这项工作为智能体记忆管理提供了一个理论基础，将记忆效率与最终决策质量直接挂钩，对于构建长周期自主智能体具有重要指导意义。

19:11

arXiv cs.AI@Anna C. Doris, Jacob Thomas Sony, Ghadi Nehme, Era Syla, Amin Heyrani Nobari, Faez Ahmed

65

CADBench 是一个统一的多模态基准测试，用于评估从图像或3D观测中恢复可编辑CAD程序的能力。该基准包含18,000个样本，涵盖六个基准家族（基于DeepCAD、Fusion 360等）、五种输入模态（如网格、渲染图）和六项指标（几何保真度、可执行性等）。评估了11个CAD专用及通用视觉语言系统，生成超过140万CAD程序。结果显示，在理想输入下专用模型优于通用模型，但模型在几何复杂度和模态变化下表现脆弱，且指标排名不一致。该基准旨在成为可编辑3D重建和多模态CAD理解的诊断工具。

论文 CAD程序生成多模态基准测试 3D重建工程自动化

推荐理由：为学界和工业界提供了一个标准化的评估框架，有助于澄清现有CAD程序生成方法的优劣及失败模式，尤其对工程设计自动化领域具有直接参考价值。

19:11

arXiv cs.AI@Edward De Brouwer, Carl Edwards, Alexander Wu, Jenna Collier, Graham Heimberg, Xiner Li, Meena Subramaniam, Ehsan Hajiramezanali, David Richmond, Jan-Christian Hütter, Sara Mostafavi, Gabriele Scalia

60

AssayBench是一个面向LLM和智能体的表型筛选基准，基于1920个公开CRISPR筛选数据构建，覆盖5类细胞表型。它将任务转化为基因排名预测，并引入adjusted nDCG指标来评估不同实验间的性能。评估显示现有方法距离理论上限较远，且零样本通用LLM优于生物专用LLM和可训练基线。该基准为虚拟细胞模型和药物发现提供了标准化测试平台。

论文 LLM评估生物信息学虚拟细胞 CRISPR筛选表型筛选

推荐理由：为LLM在生物表型筛选任务中的能力评估提供了首个标准化基准，揭示了当前方法的不足和通用LLM的潜力，对药物研发自动化有实际参考价值。

19:11

arXiv: OpenAI@Sietse Schelpe

70

本预印本实证分析了检索增强生成管道中字节级块去重的效果，涵盖三种不同模式：干净学术检索（22.2M BeIR段落字节减少0.16%）、构造企业模式（24.03%减少）和多轮对话AI（80.34%减少）。通过跨供应商5评委校准面板评估，使用Gemini 2.5 Flash、Claude Sonnet 4.6、Llama 3.3 70B和GPT-5.1四款API，应用五类别人工噪声去除协议，证明字节级去重引入了零可测量质量回归。所有API在干净和高冗余RAG模式下均通过严格的<5% Wilson 95%上限MAT阈值。该工作表明，无需牺牲评估级模型质量即可实现大量推理计算节省。

论文 RAG 去重/优化推理效率质量评估开源/仓库

推荐理由：该研究为RAG系统提供了一种确定性、无质量折损的优化方法，直接减少了推理计算成本，对实际部署具有明确指导意义。

19:11

arXiv cs.AI@Liang Luo, Yinbin Ma, Quanyu Zhu, Vasiliy Kuznetsov, Yuxin Chen, Jian Jiao, Jiecao Yu, Buyun Zhang, Tongyi Tang, Xiaohan Wei, Yanli Zhao, Zeliang Chen, Yuchen Hao, Venkatesh Ranganathan, Sandeep Parab, Yantao Yao, Maxim Naumov, Chunzhi Yang, Shen Li, Ellie Wen, Wenlin Chen, Santanu Kolay, Chunqiang Tang

45

LoKA（低精度内核应用）框架解决了FP8低精度计算在大型推荐模型（LRM）中的困境。由于LRM对数值敏感且包含大量小矩阵乘法和归一化操作，直接应用FP8会降低模型质量并增加训练时间。LoKA通过系统-模型协同设计，包含三个核心组件：LoKA Probe在线评估每层精度误差，LoKA Mods提供提升数值稳定性的模型修改，LoKA Dispatch动态选择最快且安全的FP8内核。该方法使FP8在推荐模型中实用化，同时保障精度和训练效率。

论文低精度训练 FP8 推荐模型系统-模型协同设计

推荐理由：该研究为推荐系统领域提供了实用的低精度训练方案，解决了FP8在数值敏感场景下的适配难题，对工业级推荐模型的训练加速具有实际参考价值。

19:11

arXiv: OpenAI@Gabriela Dobrita, Simona-Vasilica Oprea, Adela Bara

45

CHAINTRIX提出了一种端到端的智能合约审计框架，核心设计是确保每个LLM生成的声明都能通过确定性结构合约表示进行验证。该框架引入跨合约交互模型（CCIM），将Solidity代码解析为函数级操作的结构化映射，支持12个确定性信号引擎和并行LLM审计管道。此外，通过引入结构判决引擎（SVE）执行确定性结构检查，并结合符号执行和模糊测试来过滤低置信度发现。在EVMbench基准测试中，CHAINTRIX达到了71.7%的高危漏洞召回率，超越最强前沿模型26个百分点，部分审计实现100%召回，显著提升了审计的准确性和可靠性。

论文智能合约 LLM/增强安全审计确定性分析审计框架

推荐理由：该工作为智能合约安全审计提供了一种结合LLM与确定性分析的有效方案，解决了LLM幻觉和传统静态误报问题，对DeFi安全领域具有实际参考价值。

19:11

arXiv cs.AI@Linus Heck, Filip Macák, Roman Andriushchenko, Milan Češka, Sebastian Junges

55

该论文提出将经典Shields模型扩展到概率安全场景的新框架。传统Shields确保绝对安全，但概率安全（允许以一定概率发生不良事件）更复杂。论文证明了强安全和最大允许性无法同时保证，提出了两种弱化保证的自然Shields，以及一种保持强安全保证的离线/在线构造方法。实验表明这些新Shields在计算可行性和实用性上具有优势，为自主智能体安全提供新工具。

论文 AI安全 Shields MDP 概率安全验证

推荐理由：该研究为安全关键型AI系统（如自动驾驶、机器人）的概率安全验证提供了理论框架和实用工具，弥补了现有Shields方法在概率场景中的不足。

19:11

arXiv cs.AI@Mohammadreza Armandpour, Fatih Ilhan, David Harrison, Ajay Jaiswal, Duc N. M Hoang, Fartash Faghri, Yizhe Zhang, Minsik Cho, Mehrdad Farajtabar

35

该研究提出了一种无需训练的诊断框架，通过分析每token、每问题、每教师的梯度对齐度，揭示了on-policy蒸馏的有效条件。研究发现：在模型错误回答时蒸馏信号更有效，正确回答时信号噪声大；最优蒸馏配置依赖于学生模型能力和任务类型，不存在通用最优方案。该框架扩展了Google在推理模型训练中的on-policy蒸馏技术，为优化蒸馏策略提供了理论依据。

论文推理模型蒸馏/训练自蒸馏

推荐理由：该研究通过细粒度分析挑战了蒸馏实践中默认假设，为选择教师模型和蒸馏配置提供了理论指导，对大规模推理模型训练具有实际参考价值。

19:11

arXiv: OpenAI@Songtao Wei, Yi Li, Zhikai Li, Xu Hu, Yuede Ji, Guanpeng Li, Feng Chen, Carl Yang, Zhichun Guo, Bingzhe Li

60

LEAD提出了一种在线自适应推理压缩方法，解决大推理模型（如OpenAI o1、DeepSeek-R1）在CoT过程中过度冗长的问题。传统强化学习方法使用静态权重和全局长度约束，难以平衡正确性与效率，且无法适应不同问题的推理预算需求。LEAD通过Potential-Scaled Instability动态校准每步的正确-效率权衡，并基于模型自身正确rollouts在线估计每个问题的目标长度，然后应用对称效率奖励——既惩罚过度思考也惩罚过度压缩。在五个数学推理基准上，LEAD取得了最高的准确率和准确-效率得分，同时生成比基础模型更短的输出。

论文推理模型推理效率自适应压缩强化学习 Chain-of-Thought

推荐理由：该方法为推理模型部署中的计算效率问题提供了自适应解决方案，对于实际应用中降低推理成本和延迟具有重要价值，特别是在数学推理等需要长链推理的场景。

19:11

arXiv cs.AI@Yaxin Du, Xiyuan Yang, Zhifan Zhou, Wanxu Liu, Zixing Lei, Zimeng Chen, Fenyi Liu, Haotian Wu, Yuzhu Cai, Zexi Liu, Xinyu Zhu, WenHao Wang, Linfeng Zhang, Chen Qian, Siheng Chen

55

DataMaster 提出了一种自主数据工程框架，旨在通过优化数据侧（包括外部数据发现、选择、清洗和转换）来提升固定学习算法的性能，而无需改变算法本身。该框架集成了树状搜索结构、共享数据池和全局记忆模块，以应对数据工程中开放式的搜索空间、分支依赖优化和延迟验证等挑战。在 MLE-Bench Lite 基准上，DataMaster 将奖牌率提升了32.27%；在 PostTrainBench 上，其在 GPQA 上的表现（31.02%）超过了指导模型（30.35%）。这表明自主数据工程有望成为提升机器学习系统性能的有效手段。

论文数据工程自主智能体机器学习搜索优化 arxiv

推荐理由：DataMaster 展示了自主数据工程的潜力，特别是在模型架构和训练策略标准化后，数据优化成为关键瓶颈。对于机器学习从业者而言，该框架提供了一种系统化的数据自动化方案，可减少人工试错成本，值得关注其在数据发现与组合方面的实际应用效果。

19:11

arXiv: OpenAI@Urchade Zaratiana, Ash Lewis, George Hurn-Maloney

65

GLiNER2-PII是一个基于GLiNER2改进的0.3B参数模型，专门用于识别42种个人身份信息（PII）实体类型，支持字符级跨度检测。为解决真实PII数据匮乏和隐私风险问题，研究团队使用约束驱动生成管道构建了包含4910个标注文本的多语言合成语料库。在SPY基准测试中，该模型在跨度级别F1得分上超越了OpenAI隐私过滤器等五个对比系统。模型已在Hugging Face上开源，旨在促进PII检测的研究和实际部署。

论文个人信息提取多语言开源/仓库合成数据隐私安全

推荐理由：该模型以较小参数量在PII提取任务上达到领先性能，并采用合成数据方法规避隐私风险，为数据清洗和合规检测提供了实用工具。开源策略有助于社区进一步优化和适配多语言场景。

19:11

arXiv cs.AI@Roxana Geambasu, Mariana Raykova, Pierre Tholoniat, Trishita Tiwari, Lillian Tsai, Wen Zhang

55

该论文指出当前AI智能体普遍采用的“即时合成”范式（on-the-fly loop）缺乏严谨的软件工程流程，如迭代设计、严格测试、对抗性评估和分阶段部署，导致实际输出如同“临时原型”，在高风险场景下不可靠。作者提出将软件工程引入智能体循环，打造经过硬化、有确定性约束的生产级agent workflow，并通过复用分摊成本。为此，他们构想了一个“AI Workflow Store”，即存放硬化且可复用的工作流库，智能体可调用这些工作流以显著提升可靠性。论文还探讨了灵活性-鲁棒性张力下的研究挑战。

论文智能体 AI安全软件工程工作流存储

推荐理由：该研究直击当前AI智能体可靠性不足的痛点，提出以工程化工作流复用替代即时合成，为构建生产级智能体系统提供了重要思路，对Agent落地高风险场景具有参考价值。

19:10

arXiv: OpenAI@Wenxuan Li, Pedro R. A. S. Bassi, Xinze Zhou, Jakob Wasserthal, Alan L. Yuille, Zongwei Zhou

65

RadThinking是一个用于放射学纵向临床推理的视觉问答数据集，覆盖20362次CT扫描、9131名患者和2077名健康对照。数据集按推理深度分为三级：基础感知问题、单步规则推理问题和需要多步链式思维推理的组合问题。每个组合问题都附带基于临床报告标准的链式思维路径。该数据集首次将癌症筛查临床推理分层标注，支持训练和评估AI系统的推理能力而不仅仅是检测能力。

论文医学影像推理模型视觉问答临床报告标准癌症筛查

推荐理由：该数据集为训练AI进行符合临床指南的多步推理提供了标准化基准，对医学影像AI从感知向认知升级有重要价值。

19:10

arXiv: OpenAI@David F. Ramirez, Tim L. Overman, Kristen Jaskie, Marv Kleine, Andreas Spanias

60

该研究探索将大型语言-视觉模型（LLVM）应用于遥感SAR图像的自动目标识别（ATR）。基于MSTAR公共数据集，研究者构建了包含描述性文本和问答对的训练基准，并利用CLIP和LLaVA等模型进行参数高效微调。实验在识别军事车辆类型等细微特征上达到98%的准确率，显著提升了机器辅助遥感ATR在复杂环境下的能力。这项工作展示了LLVM在合成孔径雷达分析中的潜力，为军事和情报领域的自动化目标识别提供了新途径。

论文多模态 SAR图像自动目标识别 LLaVA CLIP 军事/遥感

推荐理由：该研究首次将LLVM迁移至SAR图像分析，并基于MSTAR数据集建立带标注的ATR基准，为多模态模型在遥感军事应用中的落地提供了可复现的方法论与评估框架。

19:10

arXiv cs.AI@Simon Yu, Derek Chong, Ananjan Nandi, Dilara Soylu, Jiuding Sun, Christopher D Manning, Weiyan Shi

65

Shepherd提出了一种函数式编程模型，将元Agent对目标Agent的操作形式化为函数，并通过Lean实现核心操作。该系统记录每个Agent-环境交互作为类型化事件，形成类似Git的执行轨迹，支持分叉和重放任意历史状态。实验表明，Shepherd的分叉速度比Docker快5倍，重放时提示缓存复用率超过95%。在运行时干预中，实时监督将配对编码通过率从28.8%提升至54.7%；在反事实元优化中，分支探索在四个基准上提升最多11个百分点，同时减少高达58%的壁钟时间；在树强化学习中，选择性地分叉展开将TerminalBench-2性能从34.2%提升至39.4%。Shepherd为元Agent编程提供了高效基础设施，并已开源。

论文智能体元Agent 形式化验证运行时追踪开源/仓库

推荐理由：该工作为元Agent的运行时追踪和干预提供了一种形式化、高性能的解决方案，尤其适合需要细粒度回溯和优化的复杂Agent系统开发。其Lean形式化和Git式执行轨迹的设计对AI安全与调试有实际参考价值。

19:10

arXiv cs.AI@Yaman Kindap, Manfred Opper, Benjamin Dupuis, Umut Simsekli, Tolga Birdal

40

本文提出了一种基于神经指数倾斜的变分推断方法，用于Lévy过程驱动的随机微分方程（SDEs）。该方法通过神经网络指数地重新加权Lévy测度，构建灵活的变分族，既保留了跳跃过程的动态特性，又具备计算可行性。研究者发展了二次神经参数化以实现倾斜测度的闭式归一化，以及稳定过程的条件高斯表示和对称性感知蒙特卡洛估计器。实验表明，该方法在合成和真实数据上能准确捕捉跳跃动态，优于高斯假设的变分方法。这对于金融、气候科学和AI安全等需要建模极端事件的领域具有重要意义。

论文变分推断 Lévy过程随机微分方程重尾建模极端事件

推荐理由：该工作解决了Lévy驱动SDE贝叶斯推断中可扩展性与精确性的矛盾，为处理重尾和跳跃过程提供了实用工具，对金融风控、气候极端事件预测等应用有直接价值。

19:10

arXiv cs.AI@Keya Hu, Linlu Qiu, Yiyang Lu, Hanhong Zhao, Tianhong Li, Yoon Kim, Jacob Andreas, Kaiming He

40

研究者提出ELF（Embedded Language Flows）模型，将连续流匹配应用于语言建模。与现有主要在离散词元上操作的扩散语言模型不同，ELF在连续嵌入空间中运行，仅在最后一步通过共享权重网络映射为离散词元。该方法可简单适配图像扩散领域的成熟技术（如无分类器引导）。实验显示，ELF在生成质量和采样步数上均显著优于当前领先的离散和连续扩散语言模型，为高效连续语言模型提供了新方向。

论文流匹配扩散模型语言建模连续嵌入 ELF

推荐理由：ELF展示了连续扩散模型在语言建模中的有效性，简化了技术迁移路径，可能降低语言生成模型的设计复杂度。其较少的采样步数有利于实际应用效率，值得关注。

19:10

arXiv cs.AI@Md. Sultan Al Rayhan, Maheen Islam

35

本文提出一种基于自信度引导的扩散增强框架，用于改善低分辨率孟加拉手写复合字符识别。该框架结合类别条件扩散建模与分类器引导，合成高质量手写样本。在U-Net结构中加入Squeeze-and-Excitation残差块提升生成质量，并采用自信度过滤机制保留高一致性样本。在AIBangla数据集上，ResNet50、DenseNet121、VGG16和Vision Transformer均取得一致提升，最佳模型准确率达89.2%，大幅超越此前基准。这表明质量感知的扩散增强能有效提升低资源语种文字识别性能。

论文低资源语种手写识别扩散模型数据增强孟加拉语

推荐理由：该研究为低资源语种手写识别提供了一种实用的数据增强思路，结合扩散模型与自信度过滤，方法通用且效果显著，对同类任务有参考价值。

18:54

Ethan Mollick@emollick

65

该推文指出，LLM的一个重要特性是，更新、更大的模型在所有任务上都表现更好。AI实验室正投入大量资源到编码等经济价值高的领域，但研究表明，更大的模型在谈判、对齐、诗歌等其他领域同样表现出色。这一观点强调了模型规模对能力提升的普遍影响。

论文大语言模型模型规模能力泛化行业观察

推荐理由：这一观点提醒从业者，模型规模的提升可能带来广泛的能力增强，而不仅仅是特定领域的进步，这对资源分配和模型评估有参考价值。

17:56

AK@_akhaliq

55

Soohak是由数学家精心策划的基准测试，旨在评估大型语言模型（LLM）在科研级别数学问题上的能力。该基准涵盖高等数学的多个领域，包括代数、几何、分析等，要求模型不仅具备计算能力，还需展现推理和创新解题能力。这为评估LLM在专业数学研究中的应用潜力提供了更严格的测试标准。

论文推理模型 LLM 数学评测基准测试 Soohak

推荐理由：Soohak填补了现有数学评测基准在科研深度上的空白，为AI在数学领域的前沿应用提供了更精确的评估工具，有助于推动模型在数学推理和问题解决上的进步。

17:35

AK@_akhaliq

45

Pixal3D是一个新的3D生成方法，能够从单张或多张图像生成像素对齐的3D模型。该方法利用像素对齐的表示方式，提高了生成3D模型的几何和纹理精度。相关论文和代码已发布，为3D内容创作提供了更高效的工具。该技术有望推动AR/VR、游戏和影视领域的3D资产自动化生成。

论文 3D生成像素对齐多模态论文

推荐理由：Pixal3D通过像素对齐提升3D生成质量，对于自动化3D建模和数字内容创作具有实际应用价值，值得关注。

5月11日

22:18

NVIDIA AI@NVIDIAAI

70

NVIDIA AI与SakanaAI Labs合作发表ICML 2026论文，提出专为现代NVIDIA GPU优化的稀疏Transformer内核与格式。核心技术包括TwELL稀疏打包和融合CUDA内核，在大规模训练和推理场景中实现20%以上的加速。论文与代码已公开。

论文稀疏计算 GPU优化 Transformer NVIDIA SakanaAI

推荐理由：该工作展示了硬件厂商与AI研究机构在底层算子优化上的高效协作，直接提升了大模型训练/推理效率，对部署大规模Transformer模型的企业而言有显著成本降低潜力。

22:16

OpenAI@OpenAI

40

OpenAI 发布文章指出，思维链监控是防御AI智能体对齐失败的关键层。为确保可监控性，他们避免在强化学习中惩罚错误推理。研究团队发现，少量意外的思维链评分影响了已发布模型，并分享了相关分析。这一发现强调了保持AI推理过程透明的重要性，对智能体安全研究具有指导意义。

论文思维链 AI安全/对齐智能体 OpenAI 强化学习

推荐理由：该分析揭示了思维链监控在实际部署中的挑战，为AI安全领域提供了具体案例和避坑建议，对研究者和工程师有直接参考价值。

22:16

Ethan Mollick@emollick

65

一项研究指出当前AI模型在生成创造性变体方面存在重大缺陷，导致其在科学研究和多样化写作等领域的应用受限。模型倾向于产出相似的创意，难以突破常规思维。该论文提出了一种通过优化模型参数来提升创造力的方法，为增强AI的创新能力提供了新思路。这一发现对于推动AI在需要原创性和多样性的场景中发挥作用具有重要意义。

论文创造性 AI模型优化科学研究论文

推荐理由：该研究直接指出了当前AI模型在创造性方面的核心痛点，并提供了可操作的优化方向，对AI开发者和研究者具有实际指导价值。