AITOP

5月11日

22:16

AK@_akhaliq

Skill1 提出了一种通过强化学习统一演化技能增强智能体的方法，旨在提升智能体在复杂任务中的泛化能力和学习效率。该方法将技能学习与强化学习框架结合，使智能体能够自主发现、优化和复用技能模块，从而适应多种任务场景。实验表明，Skill1 在多个基准测试中优于传统方法，尤其在长期规划和策略迁移方面表现突出。这项工作为构建更通用、更自主的智能体系统提供了新思路。

论文智能体强化学习技能学习泛化 Skill1

推荐理由：这项研究为技能增强型智能体的设计与训练提供了统一的强化学习框架，路径清晰且实证有效，对推动智能体从单任务到多任务泛化具有实际参考价值。

22:16

AK@_akhaliq

MiA-Signature是一种新的方法，旨在通过近似全局激活来提升长文本理解模型的性能。该方法通过一种签名机制，有效捕捉长文本中的关键信息，从而在多个长文本理解基准测试中取得显著提升。该工作可能对处理长文档、代码库和对话等应用场景具有重要影响。

论文长文本理解注意力机制 MiA-Signature 全局激活自然语言处理

推荐理由：这项研究提供了一种轻量级思路，通过全局激活的近似来解决长文本中注意力稀疏的问题，对希望在不增加显著计算开销下提升长文本理解能力的团队有参考价值。

22:16

AK@_akhaliq

该论文提出了一种连续潜在扩散语言模型（Continuous Latent Diffusion Language Model），将扩散模型应用于语言建模的潜在空间。与传统自回归模型不同，该方法在连续潜在空间中进行迭代去噪，可能提升生成质量和效率。论文展示了模型在文本生成任务上的初步结果，为语言建模提供了新的研究方向。这一工作将视觉领域成功的扩散模型扩展到自然语言处理，具有重要的理论意义和实践潜力。

论文扩散模型语言模型论文文本生成

推荐理由：这是扩散模型应用于语言建模的又一探索，为NLP领域提供了非自回归的新思路，值得关注其在文本生成和编辑等场景的后续进展。

22:16

AK@_akhaliq

MARBLE（Multi-Aspect Reward Balance for Diffusion RL）提出了一种新方法，旨在解决扩散模型强化学习中多个奖励信号之间的平衡问题。通过动态调整不同奖励方面的权重，该方法能在图像生成等任务中同时优化多个目标，如质量和多样性。论文展示了在多个基准测试上的改进效果，表明该方法能有效提升生成质量并减少模式崩溃。这对扩散模型的微调和可控生成具有实际意义。

论文扩散模型强化学习多目标优化图像生成

推荐理由：该方法直接回应了扩散模型RL中多目标优化的核心挑战，为提升生成质量和多样性提供了一种实用平衡策略。

22:16

AK@_akhaliq

Apple 推出了新的技术 TIDE，其核心理念是让模型中的每一层都了解 token 的上下文信息。这不同于传统 transformer 仅顶层或特定层感知全局上下文，TIDE 通过在每一层引入上下文信息，可能提升模型对序列的理解和生成能力。相关论文已发布，提供了详细的技术细节。这项研究对改进大型语言模型和多模态模型的上下文利用有潜在意义，值得从业者关注。

论文推理模型多模态 Apple Transformer改进上下文理解

推荐理由：TIDE 是对 transformer 架构的改进，可能提高模型层间的信息流动效率，尤其在长序列或复杂上下文任务中，但尚需更多评估验证其实际收益。

22:16

AK@_akhaliq

该研究提出了一种连续时间分布匹配方法，用于改进扩散模型的蒸馏效率。传统扩散模型需要多步采样，而该方法通过优化连续时间分布匹配损失，实现了仅需几步即可生成高质量样本。实验表明，该方法在图像生成任务上显著加速推理，同时保持生成质量，对实时应用场景具有重要意义。论文提供了理论分析和实验结果。

论文扩散模型蒸馏图像生成推理加速

推荐理由：该方法为扩散模型加速推理提供了新思路，可能降低生成式AI的部署成本，值得关注后续应用拓展。

22:16

AK@_akhaliq

SkillOS是一种用于自我进化智能体学习技能编排的新方法。文章介绍了相关的论文，该论文可能提出了一种框架，让AI智能体能够自动选择和编排技能，从而实现持续学习和适应。这对于构建更灵活、自主的AI系统具有重要意义。关键细节包括论文链接和基本概念，但目前缺乏具体实验结果。

论文智能体技能编排自进化论文

推荐理由：该方法探索了智能体技能自动编排的机制，可能提升AI系统在复杂环境中的自主适应能力，值得关注其对自动化任务编排领域的影响。

22:15

AK@_akhaliq

MACE-Dance 提出了一种运动-外观级联专家框架，用于音乐驱动的舞蹈视频生成。该方法通过分离运动与外观特征，利用级联专家网络分别建模舞蹈动作和视觉风格，从而生成更自然、多样化的舞蹈视频。实验结果表明，MACE-Dance 在舞蹈视频生成质量上优于现有方法。

论文视频生成音乐驱动舞蹈生成级联专家运动与外观解耦

推荐理由：该框架创新性地解耦了运动与外观，为舞蹈视频生成领域提供了新的技术路径，对音乐驱动的AIGC应用具有参考价值。

22:15

François Chollet@fchollet

Keras创始人François Chollet在X平台发文指出，智能体编程本质上是一种机器学习形式。他认为生成的代码应被视为黑盒产物，其行为和泛化能力需要通过经验评估来管理，就像对待任何机器学习模型一样。这一观点挑战了将代码自动生成视为传统编程延伸的普遍看法，强调开发者需要关注评估而不是审查代码本身。

论文智能体代码生成 MCP/工具机器学习评估

推荐理由：本文提醒开发者，Agentic coding（智能体编程）的输出应作为黑盒模型进行经验评估，这对当前AI辅助编码的工程实践具有指导意义。

19:03

arXiv: OpenAI（学术论文）

该研究通过分析五款AI编码工具（OpenAI, Copilot, Devin, Cursor, Claude Code）在29,585个Pull Request生命周期中的行为，提出了“发起者×批准者”分类法，将工具分为协作型（Cursor, Devin, Copilot）和辅助型（OpenAI, Claude）。协作型工具中，AI代理发起并推进PR工作，但合并权限几乎完全由人类保留；辅助型工具则更多由人类主导工作流程。研究揭示了代理操作与治理权限的脱节——自动化可执行合并，但日志仅记录执行者而非决策者。该工作为AI编码自动化中的监督与治理设计提供了分类工具和可复现分析框架。

论文编码助手 AI安全智能体协作/辅助 Pull Request

推荐理由：该研究系统量化了当前AI编码工具在PR工作流中的角色分工，揭示了代理发起与人类审批的解耦现象，对理解自动化治理边界和改进开发者工具设计具有实际参考价值。

19:03

arXiv: DeepSeek（学术论文）

意大利ENGINEERING公司发布了EngGPT2MoE-16B-A3B语言模型，采用16B参数MoE架构（3B活跃参数）。在国际基准测试（ARC-Challenge、GSM8K、MMLU等）中，该模型全面优于FastwebMIIA-7B、Minerva-7B等意大利本土模型。与同规模MoE模型相比，EngGPT2在多数指标上超过DeepSeek-MoE-16B-Chat和Moonlight-16B-A3B，但落后于GPT-OSS-20B。在意大利语数据集ITALIC上，模型表现仅次于Velvet-14B。研究认为该模型是意大利原生大语言模型的重要进步。

论文大语言模型 MoE 意大利语 EngGPT2 基准测试

推荐理由：该评测展示了意大利本土LLM的最新进展，对关注多语言模型（尤其是意大利语）的研究者和开发者具有参考价值，也反映了MoE架构在中等参数规模下的实际性能水平。

19:03

arXiv: DeepSeek（学术论文）

该研究揭示了共享输出Token预算时，长思维链会挤占答案空间，导致准确率下降的“耦合税”现象。在GSM8K、MATH-500等任务中，非思维链模式在≤2048 Token下表现更优，且Qwen3模型呈逆缩放规律。作者提出截断-浪费分解模型预测关键点，并通过拆分预算生成方法（如IRIS）将MATH-500准确率提升至83.6%。结果表明测试时推理应被视为预算分配问题。

论文思维链 Token预算推理模型 Qwen3 DeepSeek-R1

推荐理由：该工作对当前LLM推理优化具有实际指导意义，提醒研究者在固定输出长度场景中平衡推理链与答案空间，避免盲目延长思维链。

19:03

arXiv: OpenAI（学术论文）

华东师范大学推出ECNUClaw开源框架，通过构建包含认知、行为、情感、元认知和情境的五维学习者画像，实现K-12个性化学习。系统从学生与学伴的每一轮对话中提取信号，更新画像，并实时调整指导强度、鼓励频率和布鲁姆认知分类脚手架。该框架参考了国内教育技术理论（如张氏数字肖像三层框架、教育脑模型、人机协同智商概念），适配七种中文大模型提供商，代码已开源。

论文个性化教育学习者画像自适应学习 K-12 开源/仓库

推荐理由：该框架将学习者画像与自适应策略引擎深度耦合，为K-12教育中利用LLM实现个性化辅导提供了可复用的技术路线，值得关注其在真实课堂场景中的效果验证。

11:45

arXiv cs.AI（学术论文）

本研究通过押韵对联完成任务，测试语言模型在生成过程中是否存在对结构约束的未来标记的内部规划。使用线性探针和激活补丁方法，在Qwen3、Gemma-3和Llama-3三个系列超过十个规模的模型上进行实验。探针显示所有模型在行边界处都能线性解码未来押韵信息，且信号随规模增强。然而，激活补丁表明只有Gemma-3-27B在因果上依赖此编码，出现从押韵词到行边界的因果驱动转移（约第30层）。其他模型在整个生成过程中持续依赖押韵词，尽管行边界有强探针信号，但因果影响近乎为零。通过两阶段路径补丁，研究成功定位了Gemma-3-27B中负责转移的五个注意力头，恢复了约90%的押韵路由能力。

论文语言模型机制理解因果干预线性探针押韵规划

推荐理由：该工作揭示了不同语言模型在规划能力上的根本差异：仅部分模型（如Gemma-3-27B）真正依赖内部的前瞻性计划，而其他模型则依赖逐词条件。这对理解模型内部机制和未来设计更可控的生成系统有参考价值。

11:45

arXiv cs.LG（学术论文）

因果推断依赖不可验证的假设，现有敏感性分析框架多关注最坏情况下的结论变化，但往往不切实际。本研究将s-value框架泛化至三种常见因果假设，并提出贝叶斯敏感性价值(BSV)指标。BSV通过蒙特卡洛近似，基于真实世界证据构建先验分布，计算假设违背的期望敏感性。实证表明，最坏情况分析可能依赖违背先验知识的极端假设，而BSV能提供更可信的结论。该框架在糖尿病治疗对体重影响的观察性研究中得到验证，为研究者提供了更稳健的因果推断工具。

论文因果推断贝叶斯方法敏感性分析观测研究机器学习

推荐理由：提出贝叶斯敏感性价值(BSV)方法，解决了传统最坏情况敏感性分析不切实际的问题，为因果推断实践者提供了更符合先验知识的稳健性评估标准。

11:45

arXiv cs.AI（学术论文）

Dooly是一种新型LLM推理模拟器，解决了传统模拟器因硬编码配置而需重新分析所有操作的高成本问题。它通过单次推理过程，利用污点传播标记输入维度来源，仅分析数据库中缺失的操作，并复用服务引擎初始化代码隔离有状态操作（如注意力机制）。在两种GPU平台、三种注意力后端和多种模型架构上，Dooly实现了TTFT 5%以内、TPOT 8%以内的模拟准确性，同时将12个模型的分析GPU小时数减少56.4%。这项工作降低了探索最优推理配置的计算成本，对部署效率提升有重要意义。

论文推理模拟 LLM推理性能优化配置搜索 GPU分析

推荐理由：Dooly通过结构感知的冗余消除，显著降低了LLM推理配置探索的开销，对需要评估多种硬件、引擎和模型组合的从业者具有实用价值。

11:45

arXiv cs.AI（学术论文）

本文针对当前AI评估中普遍存在的“苹果与橙子”式比较问题，提出了一种可重复的流程，将高层级AI使用用例转化为详细评估场景。该方法通过结构化的AI用例工作表（包含用例、行业、用户、预期结果、预期影响和关键绩效指标六大要素）从领域专家处获取用例，并结合LLM提示与人工审核的三阶段扩展管线，将用例扩展为107个场景。文中以美国金融服务业为例，展示了网络防御、开发者生产力、金融犯罪聚合等用例的转化过程。核心贡献在于通过人工检查点确保场景的操作基础性和人类中心设计原则，为更一致、有意义的AI评估范式提供支持。

论文 AI评估方法论金融服务业 LLM 人类中心设计

推荐理由：该研究直面AI评估领域的方法论碎片化问题，提出的结构化流程和人类中心设计原则为业界提供了可操作的标准化评估框架，尤其对金融等高风险行业的AI系统评估具有直接参考价值。

11:44

arXiv cs.LG（学术论文）

论文提出STEPS方法，解决时序预测在分布偏移下测试时自适应（TTA）中的弱可识别性、误差累积和不稳定长时修正问题。该方法将TTA重新定义为时间流形上的狄利克雷边界值问题，利用局部求解器传播前缀误差的时序平滑性，全局求解器获取跨窗口误差记忆，并通过时空流形融合（SMF）整合两者进行最终矫正。在六个标准基准和四个冻结骨干网络上，STEPS相比零样本骨干平均相对MSE降低26.82%，超过最强TTA基线12.77%。额外稀疏前缀和污染测试验证了该方法在有限和噪声前缀下的鲁棒性。

论文时序预测测试时自适应分布偏移流形学习

推荐理由：该工作首次将时序预测TTA严格建模为微分方程问题，提供了理论清晰的优化视角，并在稀疏噪声数据下表现显著优于现有方法，对实际部署中的低质量观测场景具有重要参考价值。

11:44

arXiv cs.AI（学术论文）

这项研究探测了Gemma 3、Qwen 3、Qwen 2.5和Llama 3.1等12个指令微调模型（参数量从270M到27B），发现模型内部对所选工具的表示是线性的，可以通过激活干预来操控。通过添加两个工具平均激活的差值向量，可以在单轮名称提示上以77-100%的准确率（4B以上模型达93-100%）切换工具选择，并且随后的JSON参数会自动适应新工具的架构。此外，该方法还能提前标记潜在错误：在Gemma 3 12B和27B上，top-1与top-2工具差距最小的查询产生错误调用的概率是差距最大查询的14-21倍。因果效应集中在输出层对应目标工具首标记的行方向上，激活修补将影响定位到中后层少数注意力头。即使在基础模型中，内部状态也能在模型实际生成工具名称之前编码正确的工具选择，这表明预训练阶段已经形成了工具表征，指令微调只是将其连接到输出层。

论文工具调用线性表征模型可解释性智能体

推荐理由：该研究揭示了语言模型中工具选择的内在线性表征机制，为提升工具调用的可解释性和可控性提供了理论基础，对构建更可靠的智能体系统具有重要启发意义。

11:44

arXiv cs.LG（学术论文）

本文研究一类上下层均为极小极大结构的双层优化问题，提出了基于罚函数的一阶方法，无需下层问题满足强凸性假设。在确定性环境下，该方法以Õ(ε⁻⁴)的复杂度找到ε-KKT点；对于凸约束下层最小化问题（通过拉格朗日对偶转化），复杂度从现有Õ(ε⁻⁷)提升至Õ(ε⁻⁴）。在随机梯度场景下，方法以Õ(ε⁻⁹)的复杂度找到近似ε-KKT点。这一工作填补了双层优化与极小极大优化交叉领域的空白，为对抗训练、元学习等应用提供更高效的理论工具。

论文双层优化极小极大罚函数方法一阶优化凸约束

推荐理由：该工作从理论上攻克了下层为极小极大结构这一长期难点，提出的罚函数框架简洁优雅，且对凸约束问题实现了复杂度数量级改进，将推动智能体对抗训练、多任务学习等领域的实际算法设计。

11:44

arXiv cs.AI（学术论文）

研究人员提出PSP-HDC框架，利用图结构超维计算解决材料加工-结构-性能预测中的数据稀疏和异质性问题。该框架将PSP依赖关系编码为内部先验，通过可训练的标量到超向量编码器学习参数嵌入，并基于图对齐的绑定与捆绑进行样本表示。在3D制造平台测试中，PSP-HDC在随机分割和过程泛化下准确率达0.910和0.896，优于传统模型。该方法提供了内在可解释性，可追溯至参数和组级别的归因。

论文超维计算材料科学预测可解释AI 图结构化学习少量数据学习

推荐理由：该工作针对材料科学中数据高效预测的难题，提出了一种结合图结构与超维计算的新方法，在可解释性和少量数据泛化上表现突出，对AI在工程材料领域的应用具有参考价值。

11:44

arXiv cs.LG（学术论文）

研究者提出了一种名为Susceptibilities的技术，用于深度强化学习中神经网络的可解释性分析。该方法通过研究损失扰动对观测值后验期望的影响，扩展到RL的遗憾（regret）设置中。在简单的网格世界模型中，Susceptibilities能够揭示参数空间内模型发展的内部特征，而这些特征通过单纯学习策略发展无法检测。验证实验使用激活引导（activation-steering）证实了结果，并讨论了该方法扩展到RLHF后训练的可能性。这一工作为理解RL智能体的行为和学习过程提供了新的分析工具。

论文强化学习可解释性神经网络 RLHF

推荐理由：对强化学习研究者有参考价值，提供了超越传统策略分析的模型内部状态洞察方法，尤其可用于分析RLHF训练中的阶段变化。

11:44

arXiv cs.AI（学术论文）

论文提出PACS（概率常识溯因推理）框架，解决神经符号系统中形式逻辑求解器缺乏常识的问题。传统方法假设常识事实普遍一致，但实际中个体常识存在差异。PACS通过LLM和形式求解器对个体常识信念进行抽样证明，并聚合结论，在多个基准测试中优于思维链、先前神经符号方法和搜索式方法。该工作首次将概率建模引入常识溯因推理，为处理主观常识提供了新思路。

论文推理模型常识推理神经符号 LLM 概率建模

推荐理由：通过概率建模处理常识变异，PACS提升了神经符号推理的鲁棒性，对增强LLM在开放世界推理中的常识能力有实际价值。

11:44

arXiv cs.AI（学术论文）

该论文指出，在机械可解释性研究中，越来越多使用因果词汇（如电路、中介、因果抽象等），但缺乏明确的识别假设。作者对四种方法学流派的10篇论文进行审计，发现没有专门的识别假设部分，验证指标（如忠实度、完整性等）常被当作因果证据，而未说明其识别假设。两名人工编码员对30篇论文的审计重现了主要发现：缺少专门的识别假设部分，验证指标替代普遍存在。论文提议披露规范：声明是否为因果主张、命名识别策略、列举假设、强调至少一个假设，并说明假设失败时结论如何变化，强调验证不等于识别。

论文机械可解释性因果识别方法论审计 AI安全

推荐理由：该研究为可解释性领域提供了方法论反思，提醒研究者注意因果主张的严谨性，避免用验证指标替代因果识别。

11:44

arXiv cs.AI（学术论文）

该论文针对命令行界面（CLI）智能体在大型代码库中面临的两个瓶颈：从部分观察中识别任务相关证据，以及稀疏的终端奖励分配。研究者提出了σ-Reveal，一种推理时选择token预算上下文的机制；以及Action Advantage Assignment（A³），一种利用抽象语法树（AST）的动作子链残差和轨迹边际的强化学习方法。此外，他们还构建了ShellOps数据集套件，用于评估仓库环境中的CLI任务。这项研究为CLI智能体学习提供了更结构化的奖励信号，有望提升智能体在复杂代码交互中的表现。

论文智能体强化学习代码库交互 CLI AST

推荐理由：该工作提出了CLI智能体学习的关键创新：σ-Reveal和A³分别解决了选择性观察和信用分配问题，对提升Agent在复杂代码环境中的自主操作能力有显著意义。

11:44

arXiv cs.LG（学术论文）

本研究提出自适应域分解物理信息神经网络（ADD-PINN），用于从稀疏固定传感器数据中重建交通速度场。该方法首先训练一个粗粒度的全局PINN，利用其残差分布指导子域划分和子网络初始化，并使用数据驱动的激波指示器决定是否启用多域分解。在I-24 MOTION数据集上的大规模评估（1500次运行）显示，ADD-PINN在25种配置中的18种和15种稀疏传感配置中的14种取得了最低的相对L2误差，同时训练速度比扩展PINN（XPINN）基线快2.4倍。NGSIM实验作为阴性对照，验证了激波指示器在所有50次运行中抑制了分解，默认单域回退方案表现最佳。这表明残差引导的空间分解是针对稀疏固定传感场景的高效PINN设计。

论文物理信息神经网络交通估计域分解稀疏传感 PINN

推荐理由：该工作为物理信息神经网络在稀疏传感交通估计中的实际部署提供了实用框架，残差引导的域分解策略可推广至其他涉及不连续性的PINN应用，其训练效率提升对资源受限场景有直接价值。

11:44

arXiv cs.AI（学术论文）

这项研究通过fMRI记录人类学习新视频游戏时的脑活动，对比了前沿推理模型（LRMs）与深度强化学习代理及贝叶斯理论模型。研究发现LRMs不仅在游戏表现上最接近人类，还能以数量级优势预测人脑活动，且这种对齐主要源于模型对游戏状态的上下文表示而非下游推理。实验证明了LRMs作为复杂环境中人类学习与决策的计算模型的潜力。

论文推理模型行为对齐脑活动预测强化学习游戏学习

推荐理由：该研究首次系统比较了前沿推理模型与强化学习在行为与脑活动对齐上的差异，为理解AI与人类认知机制的一致性提供了重要证据，对认知科学和AI体设计有参考价值。

11:43

arXiv cs.LG（学术论文）

STARFlow2提出了一种基于自回归归一化流（TarFlow）的统一多模态生成框架，用于处理交错的文本-图像序列。它通过在Pretzel架构中垂直交错预训练VLM流和TarFlow流，并采用深度-浅层流设计和统一的FAE潜空间，实现了文本和视觉输出的缓存友好型生成。实验表明，STARFlow2在图像生成和多模态理解基准上表现强劲，证明了自回归流可以替代扩散模型作为统一多模态建模的基础。这项工作解决了因果文本生成和迭代视觉去噪之间的结构不匹配问题，为更自然的统一生成提供了新范式。

论文多模态自回归流图像生成统一模型文本-图像

推荐理由：STARFlow2展示了自回归归一化流在多模态统一生成中的潜力，为替代基于扩散的图像生成方法提供了新思路，对多模态模型的设计和效率优化有参考价值。

11:43

arXiv cs.AI（学术论文）

该研究提出一种参数重建算法，用于训练脉冲神经网络（SNN）。由于脉冲函数的不可微性，传统SNN训练依赖代理梯度，引入逐层累积的近似误差。研究团队扩展了并行前馈阈值网络的凸化理论至并行递归阈值网络，将SNN作为其结构化特例纳入框架。新算法在多个任务中作为独立方法或与代理梯度训练结合均表现出一致且显著的优势。消融实验验证了其数据扩展性和对模型配置的鲁棒性，表明该方法在大规模SNN训练中具有潜力。

论文脉冲神经网络凸优化训练算法代理梯度理论突破

推荐理由：该工作从理论层面解决了SNN训练中梯度近似误差累积的难题，提出的参数重建算法在多个基准任务上验证了有效性，为大规模低能耗SNN训练提供了新路径。

11:43

arXiv cs.LG（学术论文）

PET-Adapter是一种针对PET图像重建的测试时域自适应框架，用于生成式PET重建模型。该框架仅需在体模数据上预训练，即可适配到不同解剖结构、示踪剂和扫描仪的临床数据集，无需配对真值。它通过逐层低秩解剖条件调制和基于有序子集期望最大化的热启动，将扩散步骤从50步减少到2步，显著提升计算效率。在多个临床数据集上的实验表明，该方法在全角度和有限角度设置下均实现了优越的3D重建性能，验证了其临床可行性和计算优势。

论文图像重建 PET-Adapter 测试时自适应扩散模型医学影像

推荐理由：该研究通过测试时自适应解决了深度学习PET重建模型的泛化困境，显著降低了计算成本，为临床实时部署提供了可行方案。

11:43

arXiv cs.AI（学术论文）

学习延迟（L2D）方法通过将困难或不明确的病例路由给人类专家，可以提高青光眼筛查的安全性，但现有方法忽视了专家可用性、读者行为异质、工作负载不平衡、诊断伤害不对称等问题。本文提出MPD²-Router，一个掩码感知的多专家延迟框架，将眼科分流重新形式化为受约束的人机路由问题，决定是否延迟以及路由给哪位可用专家。该框架耦合了双头延迟分配策略与掩码感知Gumbel-sigmoid门控，严格强制每个样本的专家可用性，并融合不确定性、形态学、图像质量和分布外信号。训练采用非对称成本敏感目标、增广拉格朗日延迟预算、组特定分布先验和秩最大化JS正则化，共同防止专家空间坍塌。在三个跨国家青光眼队列（REFUGE、CHAKSU、ORIGA）上，使用预训练的REFUGE骨干，MPD²-Router在中等延迟率下显著降低了临床成本并提高了MCC，在F1-MCC成本方面达到帕累托最优，并对跨域迁移具有鲁棒性。

论文医疗AI 人机协作路由算法青光眼筛查多专家

推荐理由：该工作为医疗AI中的人机协作提供了一种实用的优化方法，能够减轻专家负担并确保安全，尤其适用于资源受限或需要高质量诊断的场景。

11:43

arXiv cs.LG（学术论文）

本文提出 DR-ME，这是首个半参数高效有限位置测试，用于检测可解释的分布治疗效果。传统的均值比较可能遗漏尾部、众数、离散度或罕见事件概率的变化，而全局核测试无法揭示具体差异位置。DR-ME 通过正交双重稳健核特征，在学习到的结果位置上评估干预核证据，返回因果差异坐标，而非仅给出全局拒绝判断。该方法具有卡方校准、局部功效优化和位置学习准则，实验显示其误差控制良好、功效可与全局测试竞争，并在半合成医学影像研究中定位了分布效应。

论文因果推断分布效应半参数效率双重稳健核测试

推荐理由：这项研究为因果推断中的分布效应分析提供了首个可解释且半参数高效的测试方法，尤其适合需要定位具体差异的应用场景，如精准医疗中不同人群的异质性响应分析。

11:43

arXiv cs.LG（学术论文）

PropSplat提出一种无需地图的无线电波传播建模方法，利用3D各向异性高斯原语重建射频场。每个高斯编码相对于基线路径损耗模型的偏差，通过观察到的收发路径初始化并端到端优化。在室外大规模路测（6个sub-6 GHz频段）中，训练测量间距300米时RMSE达5.38 dB，优于WRF-GS+等基线；室内蓝牙定位误差仅0.19米，较NeRF²提升一个数量级。该方法显著降低了对地理数据的依赖，可实现稀疏测量下的精准传播与环境建模。

论文 3D高斯渲染射频重建无地图建模路径损耗模型

推荐理由：该工作突破了传统射频建模对高成本地图或密集测量的依赖，利用可微高斯原语实现无地图传播重建，对无线网络部署、定位与频谱管理具有实用价值。

11:43

arXiv cs.AI（学术论文）

本文提出SCOPE框架，将复杂的图像生成要求形式化为语义承诺，通过结构化规范持续追踪这些承诺的状态，并条件式调用检索、推理和修复技能以解决未满足的承诺。研究指出当前模型生成中存在的“概念鸿沟”问题，即承诺在生成生命周期中可能被局部解决但无法作为统一操作单元被追踪。为评估承诺级意图实现，作者引入人类标注基准Gen-Arena和实体级通过率指标EGIP，SCOPE在该基准上达到0.60 EGIP，显著优于所有基线，并在WISE-V（0.907）和MindBench（0.61）上表现优异，证明持续承诺追踪对复杂图像生成有效。

论文图像生成语义承诺结构化解耦技能编排评估基准

推荐理由：该工作首次系统定义了图像生成中的语义承诺概念及其生命周期断裂问题，并提供了可操作的框架和评估基准。对追求高可控性图像生成的从业者来说，SCOPE展示了结构化规范追踪如何提升复杂交互场景下的生成质量。

11:43

arXiv cs.LG（学术论文）

新方法CUTS-GPR实现了高维高斯过程回归（GPR）的精确计算，其内核矩阵-向量积在数据量N上呈近线性或线性缩放，在维度D上呈低阶多项式缩放。该方法通过结合加性内核和不完整网格，利用内核矩阵的结构化特性，能够处理数十亿数据点和数千维度的任务。在N=447,265、D=24的基准测试中，包括超参数优化的完整GPR计算仅需数小时完成。CUTS-GPR解决了计算化学中高维势能面贝叶斯建模这一长期难题。

论文高斯过程回归高维计算加性内核不完整网格计算化学

推荐理由：该工作将精确GPR的规模推进到数十亿样本和数千维度，显著拓展了贝叶斯非参数方法在高维科学计算中的应用边界，对计算化学、物理模拟等领域有实际推动作用。

11:43

arXiv cs.LG（学术论文）

本文提出GraphDPO，一种基于有向无环偏好图的直接偏好优化方法，用于语言模型对齐。传统DPO仅利用成对比较，忽略了多轮生成数据中的传递性和结构信息，导致冲突和优化不稳定。GraphDPO通过图结构的Plackett-Luce目标函数聚合邻域监督，强制传递性，并保持线性复杂度。实验表明，在推理和程序合成任务中，GraphDPO优于成对和列表式对齐方法，是一种可扩展且鲁棒的替代方案。

论文偏好优化 DPO 图结构学习语言模型对齐

推荐理由：该研究从图论视角重新审视偏好对齐，解决了DPO在多响应数据上的局限性，对提升模型训练效率和稳定性具有实际指导意义。

11:43

arXiv cs.AI（学术论文）

CA-SQL是一种新型Text-to-SQL管道，通过任务难度估计动态调整搜索广度以探索候选查询。该方法结合进化搜索的提示种子策略和新型投票机制，在BIRD基准测试的困难子集上使用GPT-4o-mini达到51.72%准确率，超越使用更大模型的方法。整体执行准确率达61.06%，Soft F1得分68.77%，展示了在复杂SQL生成任务中高效利用计算资源的能力。

论文 Text-to-SQL 推理模型计算分配自然语言到查询

推荐理由：该方法为Text-to-SQL领域提供了可落地的复杂度感知计算分配方案，对提升LLM在结构化查询等推理密集型任务中的效率有参考价值。

11:43

arXiv cs.LG（学术论文）

字节级语言模型（BLT）虽匹配词元级模型性能，但逐字节自回归生成速度慢。本文提出三种加速方法：BLT Diffusion（BLT-D）用辅助扩散目标并行生成多个字节；BLT Self-speculation（BLT-S）通过推测解码扩展补丁边界并验证；BLT Diffusion+Verification（BLT-DV）结合扩散与自回归验证。所有方法在生成任务上估计内存带宽成本降低超50%，消除字节级模型实用化障碍。

论文字节级模型推理加速扩散模型推测解码无分词器

推荐理由：该工作直接解决字节级LLM的核心效率瓶颈，提出的混合推理策略（扩散+推测解码）为无分词器模型走向实际应用提供了可行路径。

11:42

arXiv cs.AI（学术论文）

研究表明，在多智能体社会困境中，扩展LLM的上下文窗口反而降低合作率。在7个LLM和4个游戏中，28种模型-游戏设置中有18种出现合作退化，作者将其命名为“记忆诅咒”。通过分析37.8万条推理轨迹，发现核心原因是前瞻性意图的减弱而非偏执增强。使用专注于前瞻性推理的LoRA微调可缓解退化，并零样本迁移至其他游戏。记忆内容而非长度是关键触发因素，且显式Chain-of-Thought推理会加剧该现象。这将记忆重新定义为多智能体行为的主动决定因素。

论文推理模型多智能体 LLM智能体社会困境上下文窗口

推荐理由：该研究揭示了LLM能力提升（如上下文窗口扩展）在社会互动场景中的意外负面效应，对多智能体系统设计和部署具有重要警示意义。

11:42

arXiv cs.LG（学术论文）

该论文首次提出基于值函数的指数效用强化学习算法，解决固定风险厌恶下折扣马尔可夫决策过程的优化问题。作者推导了两种Q值扩展，证明相关算子在L∞和sup-log/Thompson度量下是压缩的，并刻画了不动点。提出了两时间尺度Q学习算法，证明几乎必然收敛并给出有限时间收敛率；另有一时间尺度幂律算子算法，通过局部Lipschitz、单调性和Dini导数证明收敛。这项工作为风险敏感RL提供了理论基础。

论文强化学习风险敏感指数效用 Q学习收敛性分析

推荐理由：该研究为指数效用目标下的RL提供了严格的值基算法与收敛证明，填补了理论空白。对风险敏感决策领域（如金融、自动驾驶）的实践者有重要参考价值。