AITOP

5月12日

19:11

arXiv cs.AI@Anna C. Doris, Jacob Thomas Sony, Ghadi Nehme, Era Syla, Amin Heyrani Nobari, Faez Ahmed

65

CADBench 是一个统一的多模态基准测试，用于评估从图像或3D观测中恢复可编辑CAD程序的能力。该基准包含18,000个样本，涵盖六个基准家族（基于DeepCAD、Fusion 360等）、五种输入模态（如网格、渲染图）和六项指标（几何保真度、可执行性等）。评估了11个CAD专用及通用视觉语言系统，生成超过140万CAD程序。结果显示，在理想输入下专用模型优于通用模型，但模型在几何复杂度和模态变化下表现脆弱，且指标排名不一致。该基准旨在成为可编辑3D重建和多模态CAD理解的诊断工具。

论文 CAD程序生成多模态基准测试 3D重建工程自动化

推荐理由：为学界和工业界提供了一个标准化的评估框架，有助于澄清现有CAD程序生成方法的优劣及失败模式，尤其对工程设计自动化领域具有直接参考价值。

19:11

arXiv cs.AI@Edward De Brouwer, Carl Edwards, Alexander Wu, Jenna Collier, Graham Heimberg, Xiner Li, Meena Subramaniam, Ehsan Hajiramezanali, David Richmond, Jan-Christian Hütter, Sara Mostafavi, Gabriele Scalia

60

AssayBench是一个面向LLM和智能体的表型筛选基准，基于1920个公开CRISPR筛选数据构建，覆盖5类细胞表型。它将任务转化为基因排名预测，并引入adjusted nDCG指标来评估不同实验间的性能。评估显示现有方法距离理论上限较远，且零样本通用LLM优于生物专用LLM和可训练基线。该基准为虚拟细胞模型和药物发现提供了标准化测试平台。

论文 LLM评估生物信息学虚拟细胞 CRISPR筛选表型筛选

推荐理由：为LLM在生物表型筛选任务中的能力评估提供了首个标准化基准，揭示了当前方法的不足和通用LLM的潜力，对药物研发自动化有实际参考价值。

19:11

arXiv: OpenAI@Sietse Schelpe

70

本预印本实证分析了检索增强生成管道中字节级块去重的效果，涵盖三种不同模式：干净学术检索（22.2M BeIR段落字节减少0.16%）、构造企业模式（24.03%减少）和多轮对话AI（80.34%减少）。通过跨供应商5评委校准面板评估，使用Gemini 2.5 Flash、Claude Sonnet 4.6、Llama 3.3 70B和GPT-5.1四款API，应用五类别人工噪声去除协议，证明字节级去重引入了零可测量质量回归。所有API在干净和高冗余RAG模式下均通过严格的<5% Wilson 95%上限MAT阈值。该工作表明，无需牺牲评估级模型质量即可实现大量推理计算节省。

论文 RAG 去重/优化推理效率质量评估开源/仓库

推荐理由：该研究为RAG系统提供了一种确定性、无质量折损的优化方法，直接减少了推理计算成本，对实际部署具有明确指导意义。

19:11

arXiv cs.AI@Liang Luo, Yinbin Ma, Quanyu Zhu, Vasiliy Kuznetsov, Yuxin Chen, Jian Jiao, Jiecao Yu, Buyun Zhang, Tongyi Tang, Xiaohan Wei, Yanli Zhao, Zeliang Chen, Yuchen Hao, Venkatesh Ranganathan, Sandeep Parab, Yantao Yao, Maxim Naumov, Chunzhi Yang, Shen Li, Ellie Wen, Wenlin Chen, Santanu Kolay, Chunqiang Tang

45

LoKA（低精度内核应用）框架解决了FP8低精度计算在大型推荐模型（LRM）中的困境。由于LRM对数值敏感且包含大量小矩阵乘法和归一化操作，直接应用FP8会降低模型质量并增加训练时间。LoKA通过系统-模型协同设计，包含三个核心组件：LoKA Probe在线评估每层精度误差，LoKA Mods提供提升数值稳定性的模型修改，LoKA Dispatch动态选择最快且安全的FP8内核。该方法使FP8在推荐模型中实用化，同时保障精度和训练效率。

论文低精度训练 FP8 推荐模型系统-模型协同设计

推荐理由：该研究为推荐系统领域提供了实用的低精度训练方案，解决了FP8在数值敏感场景下的适配难题，对工业级推荐模型的训练加速具有实际参考价值。

19:11

arXiv: OpenAI@Gabriela Dobrita, Simona-Vasilica Oprea, Adela Bara

45

CHAINTRIX提出了一种端到端的智能合约审计框架，核心设计是确保每个LLM生成的声明都能通过确定性结构合约表示进行验证。该框架引入跨合约交互模型（CCIM），将Solidity代码解析为函数级操作的结构化映射，支持12个确定性信号引擎和并行LLM审计管道。此外，通过引入结构判决引擎（SVE）执行确定性结构检查，并结合符号执行和模糊测试来过滤低置信度发现。在EVMbench基准测试中，CHAINTRIX达到了71.7%的高危漏洞召回率，超越最强前沿模型26个百分点，部分审计实现100%召回，显著提升了审计的准确性和可靠性。

论文智能合约 LLM/增强安全审计确定性分析审计框架

推荐理由：该工作为智能合约安全审计提供了一种结合LLM与确定性分析的有效方案，解决了LLM幻觉和传统静态误报问题，对DeFi安全领域具有实际参考价值。

19:11

arXiv cs.AI@Linus Heck, Filip Macák, Roman Andriushchenko, Milan Češka, Sebastian Junges

55

该论文提出将经典Shields模型扩展到概率安全场景的新框架。传统Shields确保绝对安全，但概率安全（允许以一定概率发生不良事件）更复杂。论文证明了强安全和最大允许性无法同时保证，提出了两种弱化保证的自然Shields，以及一种保持强安全保证的离线/在线构造方法。实验表明这些新Shields在计算可行性和实用性上具有优势，为自主智能体安全提供新工具。

论文 AI安全 Shields MDP 概率安全验证

推荐理由：该研究为安全关键型AI系统（如自动驾驶、机器人）的概率安全验证提供了理论框架和实用工具，弥补了现有Shields方法在概率场景中的不足。

19:11

arXiv cs.AI@Mohammadreza Armandpour, Fatih Ilhan, David Harrison, Ajay Jaiswal, Duc N. M Hoang, Fartash Faghri, Yizhe Zhang, Minsik Cho, Mehrdad Farajtabar

35

该研究提出了一种无需训练的诊断框架，通过分析每token、每问题、每教师的梯度对齐度，揭示了on-policy蒸馏的有效条件。研究发现：在模型错误回答时蒸馏信号更有效，正确回答时信号噪声大；最优蒸馏配置依赖于学生模型能力和任务类型，不存在通用最优方案。该框架扩展了Google在推理模型训练中的on-policy蒸馏技术，为优化蒸馏策略提供了理论依据。

论文推理模型蒸馏/训练自蒸馏

推荐理由：该研究通过细粒度分析挑战了蒸馏实践中默认假设，为选择教师模型和蒸馏配置提供了理论指导，对大规模推理模型训练具有实际参考价值。

19:11

arXiv: OpenAI@Songtao Wei, Yi Li, Zhikai Li, Xu Hu, Yuede Ji, Guanpeng Li, Feng Chen, Carl Yang, Zhichun Guo, Bingzhe Li

60

LEAD提出了一种在线自适应推理压缩方法，解决大推理模型（如OpenAI o1、DeepSeek-R1）在CoT过程中过度冗长的问题。传统强化学习方法使用静态权重和全局长度约束，难以平衡正确性与效率，且无法适应不同问题的推理预算需求。LEAD通过Potential-Scaled Instability动态校准每步的正确-效率权衡，并基于模型自身正确rollouts在线估计每个问题的目标长度，然后应用对称效率奖励——既惩罚过度思考也惩罚过度压缩。在五个数学推理基准上，LEAD取得了最高的准确率和准确-效率得分，同时生成比基础模型更短的输出。

论文推理模型推理效率自适应压缩强化学习 Chain-of-Thought

推荐理由：该方法为推理模型部署中的计算效率问题提供了自适应解决方案，对于实际应用中降低推理成本和延迟具有重要价值，特别是在数学推理等需要长链推理的场景。

19:11

arXiv cs.AI@Yaxin Du, Xiyuan Yang, Zhifan Zhou, Wanxu Liu, Zixing Lei, Zimeng Chen, Fenyi Liu, Haotian Wu, Yuzhu Cai, Zexi Liu, Xinyu Zhu, WenHao Wang, Linfeng Zhang, Chen Qian, Siheng Chen

55

DataMaster 提出了一种自主数据工程框架，旨在通过优化数据侧（包括外部数据发现、选择、清洗和转换）来提升固定学习算法的性能，而无需改变算法本身。该框架集成了树状搜索结构、共享数据池和全局记忆模块，以应对数据工程中开放式的搜索空间、分支依赖优化和延迟验证等挑战。在 MLE-Bench Lite 基准上，DataMaster 将奖牌率提升了32.27%；在 PostTrainBench 上，其在 GPQA 上的表现（31.02%）超过了指导模型（30.35%）。这表明自主数据工程有望成为提升机器学习系统性能的有效手段。

论文数据工程自主智能体机器学习搜索优化 arxiv

推荐理由：DataMaster 展示了自主数据工程的潜力，特别是在模型架构和训练策略标准化后，数据优化成为关键瓶颈。对于机器学习从业者而言，该框架提供了一种系统化的数据自动化方案，可减少人工试错成本，值得关注其在数据发现与组合方面的实际应用效果。

19:11

arXiv: OpenAI@Urchade Zaratiana, Ash Lewis, George Hurn-Maloney

65

GLiNER2-PII是一个基于GLiNER2改进的0.3B参数模型，专门用于识别42种个人身份信息（PII）实体类型，支持字符级跨度检测。为解决真实PII数据匮乏和隐私风险问题，研究团队使用约束驱动生成管道构建了包含4910个标注文本的多语言合成语料库。在SPY基准测试中，该模型在跨度级别F1得分上超越了OpenAI隐私过滤器等五个对比系统。模型已在Hugging Face上开源，旨在促进PII检测的研究和实际部署。

论文个人信息提取多语言开源/仓库合成数据隐私安全

推荐理由：该模型以较小参数量在PII提取任务上达到领先性能，并采用合成数据方法规避隐私风险，为数据清洗和合规检测提供了实用工具。开源策略有助于社区进一步优化和适配多语言场景。

19:11

arXiv cs.AI@Roxana Geambasu, Mariana Raykova, Pierre Tholoniat, Trishita Tiwari, Lillian Tsai, Wen Zhang

55

该论文指出当前AI智能体普遍采用的“即时合成”范式（on-the-fly loop）缺乏严谨的软件工程流程，如迭代设计、严格测试、对抗性评估和分阶段部署，导致实际输出如同“临时原型”，在高风险场景下不可靠。作者提出将软件工程引入智能体循环，打造经过硬化、有确定性约束的生产级agent workflow，并通过复用分摊成本。为此，他们构想了一个“AI Workflow Store”，即存放硬化且可复用的工作流库，智能体可调用这些工作流以显著提升可靠性。论文还探讨了灵活性-鲁棒性张力下的研究挑战。

论文智能体 AI安全软件工程工作流存储

推荐理由：该研究直击当前AI智能体可靠性不足的痛点，提出以工程化工作流复用替代即时合成，为构建生产级智能体系统提供了重要思路，对Agent落地高风险场景具有参考价值。

19:10

arXiv: OpenAI@Wenxuan Li, Pedro R. A. S. Bassi, Xinze Zhou, Jakob Wasserthal, Alan L. Yuille, Zongwei Zhou

65

RadThinking是一个用于放射学纵向临床推理的视觉问答数据集，覆盖20362次CT扫描、9131名患者和2077名健康对照。数据集按推理深度分为三级：基础感知问题、单步规则推理问题和需要多步链式思维推理的组合问题。每个组合问题都附带基于临床报告标准的链式思维路径。该数据集首次将癌症筛查临床推理分层标注，支持训练和评估AI系统的推理能力而不仅仅是检测能力。

论文医学影像推理模型视觉问答临床报告标准癌症筛查

推荐理由：该数据集为训练AI进行符合临床指南的多步推理提供了标准化基准，对医学影像AI从感知向认知升级有重要价值。

19:10

arXiv: OpenAI@David F. Ramirez, Tim L. Overman, Kristen Jaskie, Marv Kleine, Andreas Spanias

60

该研究探索将大型语言-视觉模型（LLVM）应用于遥感SAR图像的自动目标识别（ATR）。基于MSTAR公共数据集，研究者构建了包含描述性文本和问答对的训练基准，并利用CLIP和LLaVA等模型进行参数高效微调。实验在识别军事车辆类型等细微特征上达到98%的准确率，显著提升了机器辅助遥感ATR在复杂环境下的能力。这项工作展示了LLVM在合成孔径雷达分析中的潜力，为军事和情报领域的自动化目标识别提供了新途径。

论文多模态 SAR图像自动目标识别 LLaVA CLIP 军事/遥感

推荐理由：该研究首次将LLVM迁移至SAR图像分析，并基于MSTAR数据集建立带标注的ATR基准，为多模态模型在遥感军事应用中的落地提供了可复现的方法论与评估框架。

19:10

arXiv cs.AI@Simon Yu, Derek Chong, Ananjan Nandi, Dilara Soylu, Jiuding Sun, Christopher D Manning, Weiyan Shi

65

Shepherd提出了一种函数式编程模型，将元Agent对目标Agent的操作形式化为函数，并通过Lean实现核心操作。该系统记录每个Agent-环境交互作为类型化事件，形成类似Git的执行轨迹，支持分叉和重放任意历史状态。实验表明，Shepherd的分叉速度比Docker快5倍，重放时提示缓存复用率超过95%。在运行时干预中，实时监督将配对编码通过率从28.8%提升至54.7%；在反事实元优化中，分支探索在四个基准上提升最多11个百分点，同时减少高达58%的壁钟时间；在树强化学习中，选择性地分叉展开将TerminalBench-2性能从34.2%提升至39.4%。Shepherd为元Agent编程提供了高效基础设施，并已开源。

论文智能体元Agent 形式化验证运行时追踪开源/仓库

推荐理由：该工作为元Agent的运行时追踪和干预提供了一种形式化、高性能的解决方案，尤其适合需要细粒度回溯和优化的复杂Agent系统开发。其Lean形式化和Git式执行轨迹的设计对AI安全与调试有实际参考价值。

19:10

arXiv cs.AI@Yaman Kindap, Manfred Opper, Benjamin Dupuis, Umut Simsekli, Tolga Birdal

40

本文提出了一种基于神经指数倾斜的变分推断方法，用于Lévy过程驱动的随机微分方程（SDEs）。该方法通过神经网络指数地重新加权Lévy测度，构建灵活的变分族，既保留了跳跃过程的动态特性，又具备计算可行性。研究者发展了二次神经参数化以实现倾斜测度的闭式归一化，以及稳定过程的条件高斯表示和对称性感知蒙特卡洛估计器。实验表明，该方法在合成和真实数据上能准确捕捉跳跃动态，优于高斯假设的变分方法。这对于金融、气候科学和AI安全等需要建模极端事件的领域具有重要意义。

论文变分推断 Lévy过程随机微分方程重尾建模极端事件

推荐理由：该工作解决了Lévy驱动SDE贝叶斯推断中可扩展性与精确性的矛盾，为处理重尾和跳跃过程提供了实用工具，对金融风控、气候极端事件预测等应用有直接价值。

19:10

arXiv cs.AI@Keya Hu, Linlu Qiu, Yiyang Lu, Hanhong Zhao, Tianhong Li, Yoon Kim, Jacob Andreas, Kaiming He

40

研究者提出ELF（Embedded Language Flows）模型，将连续流匹配应用于语言建模。与现有主要在离散词元上操作的扩散语言模型不同，ELF在连续嵌入空间中运行，仅在最后一步通过共享权重网络映射为离散词元。该方法可简单适配图像扩散领域的成熟技术（如无分类器引导）。实验显示，ELF在生成质量和采样步数上均显著优于当前领先的离散和连续扩散语言模型，为高效连续语言模型提供了新方向。

论文流匹配扩散模型语言建模连续嵌入 ELF

推荐理由：ELF展示了连续扩散模型在语言建模中的有效性，简化了技术迁移路径，可能降低语言生成模型的设计复杂度。其较少的采样步数有利于实际应用效率，值得关注。

19:10

arXiv cs.AI@Md. Sultan Al Rayhan, Maheen Islam

35

本文提出一种基于自信度引导的扩散增强框架，用于改善低分辨率孟加拉手写复合字符识别。该框架结合类别条件扩散建模与分类器引导，合成高质量手写样本。在U-Net结构中加入Squeeze-and-Excitation残差块提升生成质量，并采用自信度过滤机制保留高一致性样本。在AIBangla数据集上，ResNet50、DenseNet121、VGG16和Vision Transformer均取得一致提升，最佳模型准确率达89.2%，大幅超越此前基准。这表明质量感知的扩散增强能有效提升低资源语种文字识别性能。

论文低资源语种手写识别扩散模型数据增强孟加拉语

推荐理由：该研究为低资源语种手写识别提供了一种实用的数据增强思路，结合扩散模型与自信度过滤，方法通用且效果显著，对同类任务有参考价值。

5月11日

19:03

arXiv: OpenAI（学术论文）

45

该研究通过分析五款AI编码工具（OpenAI, Copilot, Devin, Cursor, Claude Code）在29,585个Pull Request生命周期中的行为，提出了“发起者×批准者”分类法，将工具分为协作型（Cursor, Devin, Copilot）和辅助型（OpenAI, Claude）。协作型工具中，AI代理发起并推进PR工作，但合并权限几乎完全由人类保留；辅助型工具则更多由人类主导工作流程。研究揭示了代理操作与治理权限的脱节——自动化可执行合并，但日志仅记录执行者而非决策者。该工作为AI编码自动化中的监督与治理设计提供了分类工具和可复现分析框架。

论文编码助手 AI安全智能体协作/辅助 Pull Request

推荐理由：该研究系统量化了当前AI编码工具在PR工作流中的角色分工，揭示了代理发起与人类审批的解耦现象，对理解自动化治理边界和改进开发者工具设计具有实际参考价值。

19:03

arXiv: DeepSeek（学术论文）

45

意大利ENGINEERING公司发布了EngGPT2MoE-16B-A3B语言模型，采用16B参数MoE架构（3B活跃参数）。在国际基准测试（ARC-Challenge、GSM8K、MMLU等）中，该模型全面优于FastwebMIIA-7B、Minerva-7B等意大利本土模型。与同规模MoE模型相比，EngGPT2在多数指标上超过DeepSeek-MoE-16B-Chat和Moonlight-16B-A3B，但落后于GPT-OSS-20B。在意大利语数据集ITALIC上，模型表现仅次于Velvet-14B。研究认为该模型是意大利原生大语言模型的重要进步。

论文大语言模型 MoE 意大利语 EngGPT2 基准测试

推荐理由：该评测展示了意大利本土LLM的最新进展，对关注多语言模型（尤其是意大利语）的研究者和开发者具有参考价值，也反映了MoE架构在中等参数规模下的实际性能水平。

19:03

arXiv: DeepSeek（学术论文）

70

该研究揭示了共享输出Token预算时，长思维链会挤占答案空间，导致准确率下降的“耦合税”现象。在GSM8K、MATH-500等任务中，非思维链模式在≤2048 Token下表现更优，且Qwen3模型呈逆缩放规律。作者提出截断-浪费分解模型预测关键点，并通过拆分预算生成方法（如IRIS）将MATH-500准确率提升至83.6%。结果表明测试时推理应被视为预算分配问题。

论文思维链 Token预算推理模型 Qwen3 DeepSeek-R1

推荐理由：该工作对当前LLM推理优化具有实际指导意义，提醒研究者在固定输出长度场景中平衡推理链与答案空间，避免盲目延长思维链。

19:03

arXiv: OpenAI（学术论文）

35

华东师范大学推出ECNUClaw开源框架，通过构建包含认知、行为、情感、元认知和情境的五维学习者画像，实现K-12个性化学习。系统从学生与学伴的每一轮对话中提取信号，更新画像，并实时调整指导强度、鼓励频率和布鲁姆认知分类脚手架。该框架参考了国内教育技术理论（如张氏数字肖像三层框架、教育脑模型、人机协同智商概念），适配七种中文大模型提供商，代码已开源。

论文个性化教育学习者画像自适应学习 K-12 开源/仓库

推荐理由：该框架将学习者画像与自适应策略引擎深度耦合，为K-12教育中利用LLM实现个性化辅导提供了可复用的技术路线，值得关注其在真实课堂场景中的效果验证。

11:45

arXiv cs.AI（学术论文）

35

本研究通过押韵对联完成任务，测试语言模型在生成过程中是否存在对结构约束的未来标记的内部规划。使用线性探针和激活补丁方法，在Qwen3、Gemma-3和Llama-3三个系列超过十个规模的模型上进行实验。探针显示所有模型在行边界处都能线性解码未来押韵信息，且信号随规模增强。然而，激活补丁表明只有Gemma-3-27B在因果上依赖此编码，出现从押韵词到行边界的因果驱动转移（约第30层）。其他模型在整个生成过程中持续依赖押韵词，尽管行边界有强探针信号，但因果影响近乎为零。通过两阶段路径补丁，研究成功定位了Gemma-3-27B中负责转移的五个注意力头，恢复了约90%的押韵路由能力。

论文语言模型机制理解因果干预线性探针押韵规划

推荐理由：该工作揭示了不同语言模型在规划能力上的根本差异：仅部分模型（如Gemma-3-27B）真正依赖内部的前瞻性计划，而其他模型则依赖逐词条件。这对理解模型内部机制和未来设计更可控的生成系统有参考价值。

11:45

arXiv cs.LG（学术论文）

35

因果推断依赖不可验证的假设，现有敏感性分析框架多关注最坏情况下的结论变化，但往往不切实际。本研究将s-value框架泛化至三种常见因果假设，并提出贝叶斯敏感性价值(BSV)指标。BSV通过蒙特卡洛近似，基于真实世界证据构建先验分布，计算假设违背的期望敏感性。实证表明，最坏情况分析可能依赖违背先验知识的极端假设，而BSV能提供更可信的结论。该框架在糖尿病治疗对体重影响的观察性研究中得到验证，为研究者提供了更稳健的因果推断工具。

论文因果推断贝叶斯方法敏感性分析观测研究机器学习

推荐理由：提出贝叶斯敏感性价值(BSV)方法，解决了传统最坏情况敏感性分析不切实际的问题，为因果推断实践者提供了更符合先验知识的稳健性评估标准。

11:45

arXiv cs.AI（学术论文）

65

Dooly是一种新型LLM推理模拟器，解决了传统模拟器因硬编码配置而需重新分析所有操作的高成本问题。它通过单次推理过程，利用污点传播标记输入维度来源，仅分析数据库中缺失的操作，并复用服务引擎初始化代码隔离有状态操作（如注意力机制）。在两种GPU平台、三种注意力后端和多种模型架构上，Dooly实现了TTFT 5%以内、TPOT 8%以内的模拟准确性，同时将12个模型的分析GPU小时数减少56.4%。这项工作降低了探索最优推理配置的计算成本，对部署效率提升有重要意义。

论文推理模拟 LLM推理性能优化配置搜索 GPU分析

推荐理由：Dooly通过结构感知的冗余消除，显著降低了LLM推理配置探索的开销，对需要评估多种硬件、引擎和模型组合的从业者具有实用价值。

11:45

arXiv cs.AI（学术论文）

55

本文针对当前AI评估中普遍存在的“苹果与橙子”式比较问题，提出了一种可重复的流程，将高层级AI使用用例转化为详细评估场景。该方法通过结构化的AI用例工作表（包含用例、行业、用户、预期结果、预期影响和关键绩效指标六大要素）从领域专家处获取用例，并结合LLM提示与人工审核的三阶段扩展管线，将用例扩展为107个场景。文中以美国金融服务业为例，展示了网络防御、开发者生产力、金融犯罪聚合等用例的转化过程。核心贡献在于通过人工检查点确保场景的操作基础性和人类中心设计原则，为更一致、有意义的AI评估范式提供支持。

论文 AI评估方法论金融服务业 LLM 人类中心设计

推荐理由：该研究直面AI评估领域的方法论碎片化问题，提出的结构化流程和人类中心设计原则为业界提供了可操作的标准化评估框架，尤其对金融等高风险行业的AI系统评估具有直接参考价值。

11:44

arXiv cs.LG（学术论文）

60

论文提出STEPS方法，解决时序预测在分布偏移下测试时自适应（TTA）中的弱可识别性、误差累积和不稳定长时修正问题。该方法将TTA重新定义为时间流形上的狄利克雷边界值问题，利用局部求解器传播前缀误差的时序平滑性，全局求解器获取跨窗口误差记忆，并通过时空流形融合（SMF）整合两者进行最终矫正。在六个标准基准和四个冻结骨干网络上，STEPS相比零样本骨干平均相对MSE降低26.82%，超过最强TTA基线12.77%。额外稀疏前缀和污染测试验证了该方法在有限和噪声前缀下的鲁棒性。

论文时序预测测试时自适应分布偏移流形学习

推荐理由：该工作首次将时序预测TTA严格建模为微分方程问题，提供了理论清晰的优化视角，并在稀疏噪声数据下表现显著优于现有方法，对实际部署中的低质量观测场景具有重要参考价值。

11:44

arXiv cs.AI（学术论文）

65

这项研究探测了Gemma 3、Qwen 3、Qwen 2.5和Llama 3.1等12个指令微调模型（参数量从270M到27B），发现模型内部对所选工具的表示是线性的，可以通过激活干预来操控。通过添加两个工具平均激活的差值向量，可以在单轮名称提示上以77-100%的准确率（4B以上模型达93-100%）切换工具选择，并且随后的JSON参数会自动适应新工具的架构。此外，该方法还能提前标记潜在错误：在Gemma 3 12B和27B上，top-1与top-2工具差距最小的查询产生错误调用的概率是差距最大查询的14-21倍。因果效应集中在输出层对应目标工具首标记的行方向上，激活修补将影响定位到中后层少数注意力头。即使在基础模型中，内部状态也能在模型实际生成工具名称之前编码正确的工具选择，这表明预训练阶段已经形成了工具表征，指令微调只是将其连接到输出层。

论文工具调用线性表征模型可解释性智能体

推荐理由：该研究揭示了语言模型中工具选择的内在线性表征机制，为提升工具调用的可解释性和可控性提供了理论基础，对构建更可靠的智能体系统具有重要启发意义。

11:44

arXiv cs.LG（学术论文）

60

本文研究一类上下层均为极小极大结构的双层优化问题，提出了基于罚函数的一阶方法，无需下层问题满足强凸性假设。在确定性环境下，该方法以Õ(ε⁻⁴)的复杂度找到ε-KKT点；对于凸约束下层最小化问题（通过拉格朗日对偶转化），复杂度从现有Õ(ε⁻⁷)提升至Õ(ε⁻⁴）。在随机梯度场景下，方法以Õ(ε⁻⁹)的复杂度找到近似ε-KKT点。这一工作填补了双层优化与极小极大优化交叉领域的空白，为对抗训练、元学习等应用提供更高效的理论工具。

论文双层优化极小极大罚函数方法一阶优化凸约束

推荐理由：该工作从理论上攻克了下层为极小极大结构这一长期难点，提出的罚函数框架简洁优雅，且对凸约束问题实现了复杂度数量级改进，将推动智能体对抗训练、多任务学习等领域的实际算法设计。

11:44

arXiv cs.AI（学术论文）

60

研究人员提出PSP-HDC框架，利用图结构超维计算解决材料加工-结构-性能预测中的数据稀疏和异质性问题。该框架将PSP依赖关系编码为内部先验，通过可训练的标量到超向量编码器学习参数嵌入，并基于图对齐的绑定与捆绑进行样本表示。在3D制造平台测试中，PSP-HDC在随机分割和过程泛化下准确率达0.910和0.896，优于传统模型。该方法提供了内在可解释性，可追溯至参数和组级别的归因。

论文超维计算材料科学预测可解释AI 图结构化学习少量数据学习

推荐理由：该工作针对材料科学中数据高效预测的难题，提出了一种结合图结构与超维计算的新方法，在可解释性和少量数据泛化上表现突出，对AI在工程材料领域的应用具有参考价值。

11:44

arXiv cs.LG（学术论文）

35

研究者提出了一种名为Susceptibilities的技术，用于深度强化学习中神经网络的可解释性分析。该方法通过研究损失扰动对观测值后验期望的影响，扩展到RL的遗憾（regret）设置中。在简单的网格世界模型中，Susceptibilities能够揭示参数空间内模型发展的内部特征，而这些特征通过单纯学习策略发展无法检测。验证实验使用激活引导（activation-steering）证实了结果，并讨论了该方法扩展到RLHF后训练的可能性。这一工作为理解RL智能体的行为和学习过程提供了新的分析工具。

论文强化学习可解释性神经网络 RLHF

推荐理由：对强化学习研究者有参考价值，提供了超越传统策略分析的模型内部状态洞察方法，尤其可用于分析RLHF训练中的阶段变化。

11:44

arXiv cs.AI（学术论文）

65

论文提出PACS（概率常识溯因推理）框架，解决神经符号系统中形式逻辑求解器缺乏常识的问题。传统方法假设常识事实普遍一致，但实际中个体常识存在差异。PACS通过LLM和形式求解器对个体常识信念进行抽样证明，并聚合结论，在多个基准测试中优于思维链、先前神经符号方法和搜索式方法。该工作首次将概率建模引入常识溯因推理，为处理主观常识提供了新思路。

论文推理模型常识推理神经符号 LLM 概率建模

推荐理由：通过概率建模处理常识变异，PACS提升了神经符号推理的鲁棒性，对增强LLM在开放世界推理中的常识能力有实际价值。

11:44

arXiv cs.AI（学术论文）

40

该论文指出，在机械可解释性研究中，越来越多使用因果词汇（如电路、中介、因果抽象等），但缺乏明确的识别假设。作者对四种方法学流派的10篇论文进行审计，发现没有专门的识别假设部分，验证指标（如忠实度、完整性等）常被当作因果证据，而未说明其识别假设。两名人工编码员对30篇论文的审计重现了主要发现：缺少专门的识别假设部分，验证指标替代普遍存在。论文提议披露规范：声明是否为因果主张、命名识别策略、列举假设、强调至少一个假设，并说明假设失败时结论如何变化，强调验证不等于识别。

论文机械可解释性因果识别方法论审计 AI安全

推荐理由：该研究为可解释性领域提供了方法论反思，提醒研究者注意因果主张的严谨性，避免用验证指标替代因果识别。

11:44

arXiv cs.AI（学术论文）

70

该论文针对命令行界面（CLI）智能体在大型代码库中面临的两个瓶颈：从部分观察中识别任务相关证据，以及稀疏的终端奖励分配。研究者提出了σ-Reveal，一种推理时选择token预算上下文的机制；以及Action Advantage Assignment（A³），一种利用抽象语法树（AST）的动作子链残差和轨迹边际的强化学习方法。此外，他们还构建了ShellOps数据集套件，用于评估仓库环境中的CLI任务。这项研究为CLI智能体学习提供了更结构化的奖励信号，有望提升智能体在复杂代码交互中的表现。

论文智能体强化学习代码库交互 CLI AST

推荐理由：该工作提出了CLI智能体学习的关键创新：σ-Reveal和A³分别解决了选择性观察和信用分配问题，对提升Agent在复杂代码环境中的自主操作能力有显著意义。

11:44

arXiv cs.LG（学术论文）

40

本研究提出自适应域分解物理信息神经网络（ADD-PINN），用于从稀疏固定传感器数据中重建交通速度场。该方法首先训练一个粗粒度的全局PINN，利用其残差分布指导子域划分和子网络初始化，并使用数据驱动的激波指示器决定是否启用多域分解。在I-24 MOTION数据集上的大规模评估（1500次运行）显示，ADD-PINN在25种配置中的18种和15种稀疏传感配置中的14种取得了最低的相对L2误差，同时训练速度比扩展PINN（XPINN）基线快2.4倍。NGSIM实验作为阴性对照，验证了激波指示器在所有50次运行中抑制了分解，默认单域回退方案表现最佳。这表明残差引导的空间分解是针对稀疏固定传感场景的高效PINN设计。

论文物理信息神经网络交通估计域分解稀疏传感 PINN

推荐理由：该工作为物理信息神经网络在稀疏传感交通估计中的实际部署提供了实用框架，残差引导的域分解策略可推广至其他涉及不连续性的PINN应用，其训练效率提升对资源受限场景有直接价值。

11:44

arXiv cs.AI（学术论文）

65

这项研究通过fMRI记录人类学习新视频游戏时的脑活动，对比了前沿推理模型（LRMs）与深度强化学习代理及贝叶斯理论模型。研究发现LRMs不仅在游戏表现上最接近人类，还能以数量级优势预测人脑活动，且这种对齐主要源于模型对游戏状态的上下文表示而非下游推理。实验证明了LRMs作为复杂环境中人类学习与决策的计算模型的潜力。

论文推理模型行为对齐脑活动预测强化学习游戏学习

推荐理由：该研究首次系统比较了前沿推理模型与强化学习在行为与脑活动对齐上的差异，为理解AI与人类认知机制的一致性提供了重要证据，对认知科学和AI体设计有参考价值。

11:43

arXiv cs.LG（学术论文）

60

STARFlow2提出了一种基于自回归归一化流（TarFlow）的统一多模态生成框架，用于处理交错的文本-图像序列。它通过在Pretzel架构中垂直交错预训练VLM流和TarFlow流，并采用深度-浅层流设计和统一的FAE潜空间，实现了文本和视觉输出的缓存友好型生成。实验表明，STARFlow2在图像生成和多模态理解基准上表现强劲，证明了自回归流可以替代扩散模型作为统一多模态建模的基础。这项工作解决了因果文本生成和迭代视觉去噪之间的结构不匹配问题，为更自然的统一生成提供了新范式。

论文多模态自回归流图像生成统一模型文本-图像

推荐理由：STARFlow2展示了自回归归一化流在多模态统一生成中的潜力，为替代基于扩散的图像生成方法提供了新思路，对多模态模型的设计和效率优化有参考价值。

11:43

arXiv cs.AI（学术论文）

68

该研究提出一种参数重建算法，用于训练脉冲神经网络（SNN）。由于脉冲函数的不可微性，传统SNN训练依赖代理梯度，引入逐层累积的近似误差。研究团队扩展了并行前馈阈值网络的凸化理论至并行递归阈值网络，将SNN作为其结构化特例纳入框架。新算法在多个任务中作为独立方法或与代理梯度训练结合均表现出一致且显著的优势。消融实验验证了其数据扩展性和对模型配置的鲁棒性，表明该方法在大规模SNN训练中具有潜力。

论文脉冲神经网络凸优化训练算法代理梯度理论突破

推荐理由：该工作从理论层面解决了SNN训练中梯度近似误差累积的难题，提出的参数重建算法在多个基准任务上验证了有效性，为大规模低能耗SNN训练提供了新路径。

11:43

arXiv cs.LG（学术论文）

55

PET-Adapter是一种针对PET图像重建的测试时域自适应框架，用于生成式PET重建模型。该框架仅需在体模数据上预训练，即可适配到不同解剖结构、示踪剂和扫描仪的临床数据集，无需配对真值。它通过逐层低秩解剖条件调制和基于有序子集期望最大化的热启动，将扩散步骤从50步减少到2步，显著提升计算效率。在多个临床数据集上的实验表明，该方法在全角度和有限角度设置下均实现了优越的3D重建性能，验证了其临床可行性和计算优势。

论文图像重建 PET-Adapter 测试时自适应扩散模型医学影像

推荐理由：该研究通过测试时自适应解决了深度学习PET重建模型的泛化困境，显著降低了计算成本，为临床实时部署提供了可行方案。

11:43

arXiv cs.AI（学术论文）

60

学习延迟（L2D）方法通过将困难或不明确的病例路由给人类专家，可以提高青光眼筛查的安全性，但现有方法忽视了专家可用性、读者行为异质、工作负载不平衡、诊断伤害不对称等问题。本文提出MPD²-Router，一个掩码感知的多专家延迟框架，将眼科分流重新形式化为受约束的人机路由问题，决定是否延迟以及路由给哪位可用专家。该框架耦合了双头延迟分配策略与掩码感知Gumbel-sigmoid门控，严格强制每个样本的专家可用性，并融合不确定性、形态学、图像质量和分布外信号。训练采用非对称成本敏感目标、增广拉格朗日延迟预算、组特定分布先验和秩最大化JS正则化，共同防止专家空间坍塌。在三个跨国家青光眼队列（REFUGE、CHAKSU、ORIGA）上，使用预训练的REFUGE骨干，MPD²-Router在中等延迟率下显著降低了临床成本并提高了MCC，在F1-MCC成本方面达到帕累托最优，并对跨域迁移具有鲁棒性。

论文医疗AI 人机协作路由算法青光眼筛查多专家

推荐理由：该工作为医疗AI中的人机协作提供了一种实用的优化方法，能够减轻专家负担并确保安全，尤其适用于资源受限或需要高质量诊断的场景。

11:43

arXiv cs.LG（学术论文）

40

本文提出 DR-ME，这是首个半参数高效有限位置测试，用于检测可解释的分布治疗效果。传统的均值比较可能遗漏尾部、众数、离散度或罕见事件概率的变化，而全局核测试无法揭示具体差异位置。DR-ME 通过正交双重稳健核特征，在学习到的结果位置上评估干预核证据，返回因果差异坐标，而非仅给出全局拒绝判断。该方法具有卡方校准、局部功效优化和位置学习准则，实验显示其误差控制良好、功效可与全局测试竞争，并在半合成医学影像研究中定位了分布效应。

论文因果推断分布效应半参数效率双重稳健核测试

推荐理由：这项研究为因果推断中的分布效应分析提供了首个可解释且半参数高效的测试方法，尤其适合需要定位具体差异的应用场景，如精准医疗中不同人群的异质性响应分析。