AITOP

5月11日

11:43

arXiv cs.AI（学术论文）

35

本文提出SCOPE框架，将复杂的图像生成要求形式化为语义承诺，通过结构化规范持续追踪这些承诺的状态，并条件式调用检索、推理和修复技能以解决未满足的承诺。研究指出当前模型生成中存在的“概念鸿沟”问题，即承诺在生成生命周期中可能被局部解决但无法作为统一操作单元被追踪。为评估承诺级意图实现，作者引入人类标注基准Gen-Arena和实体级通过率指标EGIP，SCOPE在该基准上达到0.60 EGIP，显著优于所有基线，并在WISE-V（0.907）和MindBench（0.61）上表现优异，证明持续承诺追踪对复杂图像生成有效。

论文图像生成语义承诺结构化解耦技能编排评估基准

推荐理由：该工作首次系统定义了图像生成中的语义承诺概念及其生命周期断裂问题，并提供了可操作的框架和评估基准。对追求高可控性图像生成的从业者来说，SCOPE展示了结构化规范追踪如何提升复杂交互场景下的生成质量。

11:43

arXiv cs.LG（学术论文）

65

新方法CUTS-GPR实现了高维高斯过程回归（GPR）的精确计算，其内核矩阵-向量积在数据量N上呈近线性或线性缩放，在维度D上呈低阶多项式缩放。该方法通过结合加性内核和不完整网格，利用内核矩阵的结构化特性，能够处理数十亿数据点和数千维度的任务。在N=447,265、D=24的基准测试中，包括超参数优化的完整GPR计算仅需数小时完成。CUTS-GPR解决了计算化学中高维势能面贝叶斯建模这一长期难题。

论文高斯过程回归高维计算加性内核不完整网格计算化学

推荐理由：该工作将精确GPR的规模推进到数十亿样本和数千维度，显著拓展了贝叶斯非参数方法在高维科学计算中的应用边界，对计算化学、物理模拟等领域有实际推动作用。

11:43

arXiv cs.LG（学术论文）

60

本文提出GraphDPO，一种基于有向无环偏好图的直接偏好优化方法，用于语言模型对齐。传统DPO仅利用成对比较，忽略了多轮生成数据中的传递性和结构信息，导致冲突和优化不稳定。GraphDPO通过图结构的Plackett-Luce目标函数聚合邻域监督，强制传递性，并保持线性复杂度。实验表明，在推理和程序合成任务中，GraphDPO优于成对和列表式对齐方法，是一种可扩展且鲁棒的替代方案。

论文偏好优化 DPO 图结构学习语言模型对齐

推荐理由：该研究从图论视角重新审视偏好对齐，解决了DPO在多响应数据上的局限性，对提升模型训练效率和稳定性具有实际指导意义。

11:43

arXiv cs.AI（学术论文）

30

CA-SQL是一种新型Text-to-SQL管道，通过任务难度估计动态调整搜索广度以探索候选查询。该方法结合进化搜索的提示种子策略和新型投票机制，在BIRD基准测试的困难子集上使用GPT-4o-mini达到51.72%准确率，超越使用更大模型的方法。整体执行准确率达61.06%，Soft F1得分68.77%，展示了在复杂SQL生成任务中高效利用计算资源的能力。

论文 Text-to-SQL 推理模型计算分配自然语言到查询

推荐理由：该方法为Text-to-SQL领域提供了可落地的复杂度感知计算分配方案，对提升LLM在结构化查询等推理密集型任务中的效率有参考价值。

11:43

arXiv cs.LG（学术论文）

38

字节级语言模型（BLT）虽匹配词元级模型性能，但逐字节自回归生成速度慢。本文提出三种加速方法：BLT Diffusion（BLT-D）用辅助扩散目标并行生成多个字节；BLT Self-speculation（BLT-S）通过推测解码扩展补丁边界并验证；BLT Diffusion+Verification（BLT-DV）结合扩散与自回归验证。所有方法在生成任务上估计内存带宽成本降低超50%，消除字节级模型实用化障碍。

论文字节级模型推理加速扩散模型推测解码无分词器

推荐理由：该工作直接解决字节级LLM的核心效率瓶颈，提出的混合推理策略（扩散+推测解码）为无分词器模型走向实际应用提供了可行路径。

11:42

arXiv cs.AI（学术论文）

65

研究表明，在多智能体社会困境中，扩展LLM的上下文窗口反而降低合作率。在7个LLM和4个游戏中，28种模型-游戏设置中有18种出现合作退化，作者将其命名为“记忆诅咒”。通过分析37.8万条推理轨迹，发现核心原因是前瞻性意图的减弱而非偏执增强。使用专注于前瞻性推理的LoRA微调可缓解退化，并零样本迁移至其他游戏。记忆内容而非长度是关键触发因素，且显式Chain-of-Thought推理会加剧该现象。这将记忆重新定义为多智能体行为的主动决定因素。

论文推理模型多智能体 LLM智能体社会困境上下文窗口

推荐理由：该研究揭示了LLM能力提升（如上下文窗口扩展）在社会互动场景中的意外负面效应，对多智能体系统设计和部署具有重要警示意义。

11:42

arXiv cs.LG（学术论文）

45

该论文首次提出基于值函数的指数效用强化学习算法，解决固定风险厌恶下折扣马尔可夫决策过程的优化问题。作者推导了两种Q值扩展，证明相关算子在L∞和sup-log/Thompson度量下是压缩的，并刻画了不动点。提出了两时间尺度Q学习算法，证明几乎必然收敛并给出有限时间收敛率；另有一时间尺度幂律算子算法，通过局部Lipschitz、单调性和Dini导数证明收敛。这项工作为风险敏感RL提供了理论基础。

论文强化学习风险敏感指数效用 Q学习收敛性分析

推荐理由：该研究为指数效用目标下的RL提供了严格的值基算法与收敛证明，填补了理论空白。对风险敏感决策领域（如金融、自动驾驶）的实践者有重要参考价值。

11:42

arXiv cs.AI（学术论文）

70

该论文提出了一种名为“rubric-grounded reinforcement learning (RL)”的框架，将奖励分解为多个可验证的加权标准，由冻结的LLM评判器给每个回应评分，从而提供部分信用优化信号。作者从约10万份科技文档中提取评判规则，并利用GRPO方法微调Llama-3.1-8B-Instruct模型，在保留的评判规则评估上获得了71.7%的归一化奖励。经GRPO训练的策略在GSM8K、MATH、GPQA Main和GPQA Diamond等四个未参与训练的推理基准上均优于基础模型。这一结果表明，结构化、文档依赖的奖励能够改善保留评判规则的性能，并诱发可迁移的推理行为。该框架为提升大模型推理的泛化能力提供了一种新的训练范式。

论文推理模型强化学习 LLM-as-judge GRPO 泛化性

推荐理由：该研究通过分解奖励为多标准评判规则，实现了更细粒度的优化信号，在多个推理基准上验证了迁移效果，对大模型推理能力的训练方法有重要参考价值。

11:42

arXiv cs.LG（学术论文）

30

该论文研究了高斯分布下非负L1逼近多项式的存在性。非负L1逼近多项式要求多项式在逼近指示函数时保持非负性，比标准L1逼近更强，但比夹逼多项式更弱。作者证明：任何高斯表面积为Γ的标准高斯集类，都存在次数为O~(Γ²/ε²)的非负多项式实现ε-L1逼近。该结果与非负性约束下的最佳已知度界匹配，为非正例的平滑学习等应用提供了理论支撑。

论文理论 L1逼近高斯分布机器学习理论

推荐理由：该结果统一了高斯表面理论与L1逼近的度界，为非负多项式在平滑学习中的应用提供了理论基础，对理论计算机科学中指标函数逼近研究具有参考价值。

11:42

arXiv cs.AI（学术论文）

精选80

Flow-OPD提出首个将在线策略蒸馏（OPD）集成到Flow Matching模型中的统一后训练框架，有效解决了多任务对齐中的奖励稀疏和梯度干扰问题。该框架采用两阶段对齐策略：先通过单奖励GRPO微调培养领域专用教师模型，再通过Flow冷启动、在线策略采样、任务路由标注和密集轨迹监督将异构专业知识整合到单个学生模型中。研究者还引入了流形锚点正则化（MAR），利用任务无关教师提供全数据监督，避免RL驱动对齐中常见的美学退化。在Stable Diffusion 3.5 Medium上的实验显示，GenEval分数从63提升至92，OCR准确率从59%提升至94%，整体提升约10个百分点，且保持图像保真度和人类偏好对齐，并出现“超越教师”效应。该工作为构建通用文本到图像模型的可扩展对齐范式奠定了基础。

论文图像生成 Flow Matching 在线策略蒸馏多任务对齐 Stable Diffusion 3.5

推荐理由：该工作针对现有多任务对齐中指标相互制约和奖励欺骗的痛点，将LLM领域成熟的OPD方法成功迁移至图像生成领域，并通过冷启动、任务路由和正则化创新提升了效果。实验在关键指标上大幅领先现有方法，对业界构建高性能通用文生图模型具有直接参考价值。

11:42

arXiv cs.LG（学术论文）

45

GRAPHLCP是一种用于图神经网络（GNN）的局部化共形预测框架，能够提供分布无关的不确定性量化保证。现有方法仅依赖嵌入空间邻近性进行局部化，但对图结构不可靠且效率低。GRAPHLCP通过特征感知致密化缓解稀疏图局部偏差，利用个性化PageRank核建模拓扑邻近性，从而捕获局部和长程依赖。实验表明，该方法在有限样本下保证边际覆盖率，并在多种回归和分类数据集上实现高效的测试条件覆盖率。

论文图神经网络不确定性量化共形预测拓扑结构个性化PageRank

推荐理由：该工作将图拓扑显式融入共形预测的局部化过程，解决了图场景下传统方法嵌入邻近性不可靠的问题，为图神经网络的可靠不确定性量化提供了新方案，对需要鲁棒预测的图应用（如分子性质预测、社交网络分析）具有实用价值。

11:42

arXiv cs.AI（学术论文）

65

标准推理时扩展技术自一致性通过多数投票选答案，但加权多数投票（如置信度感知自一致性CISC）虽更准却需额外调用批评模型增加成本。VecCISC提出轻量自适应框架，利用语义相似度过滤冗余、退化或幻觉轨迹，减少需评估的候选数。在数学、化学、生物、常识推理和人文五个数据集上，VecCISC降低47% token用量，同时保持或超越CISC精度。该方法为推理时扩展提供了更经济的平衡方案。

论文推理模型自一致性成本优化语义聚类 LLM评估

推荐理由：VecCISC通过聚类与过滤显著降低计算开销，对工业界部署高精度推理模型具有实际价值，尤其适合长轨迹场景。

11:42

arXiv cs.LG（学术论文）

70

想象语音解码因缺乏高标签对齐的数据而困难。研究者利用聆听语音时更丰富、可靠的MEG记录，提出三阶段解码流水线。首先训练模型将想象MEG映射到聆听MEG，再用聆听数据训练对比词解码器，最后将想象MEG经映射后解码。实验对未见过受试者证明想象单词解码显著高于随机，且性能随训练数据规模提升。该方法无需想象数据训练，为脑机接口提供可扩展的零样本方案。

论文脑机接口 MEG 语音解码零样本

推荐理由：该工作展示了利用聆听数据隐式迁移到想象任务的可能性，缓解了想象数据稀缺的问题。可直接推动非侵入式BCI在语言辅助领域的实际应用。

11:42

arXiv cs.AI（学术论文）

60

针对传统CNN和ViT在事件相机图像重建中的局限性（CNN缺乏全局相关性，ViT计算复杂度随分辨率平方增长），研究者提出EmambaIR框架。该框架融合跨模态Top-K稀疏注意力（TSAM）和门控状态空间模块（GSSM），在保持线性计算复杂度的同时捕捉全局依赖。在运动去模糊、去雨和HDR增强三个任务的6个数据集上，EmambaIR以更低内存和计算成本超越现有最先进方法。代码已开源。

论文状态空间模型事件相机/图像重建视觉/生成高效/架构

推荐理由：该工作为状态空间模型在高分辨率事件相机图像重建中提供了高效可行的方案，有助于推动实时视觉系统与边缘计算部署。

11:42

arXiv cs.LG（学术论文）

60

本研究提出 Normalizing Trajectory Models (NTM)，一种新型生成模型框架。传统扩散模型假设多步高斯去噪，在少步采样时失效；现有少步方法依赖蒸馏、一致性训练或对抗目标，但放弃了似然框架。NTM 将每个逆向步骤建模为条件标准化流，并用深层并行预测器连接整个轨迹。该模型可通过预训练流匹配模型初始化，利用精确轨迹似然进行自蒸馏，仅需四步即可生成高质量文本到图像样本。在基准测试中，NTM 在四步内匹配或超越了强基线模型，同时保留了可计算的似然。

论文标准化流扩散模型少步生成文本到图像似然训练

推荐理由：NTM 通过将标准化流与轨迹建模结合，在少步生成和无似然性能间取得平衡，为扩散模型加速提供了新思路。对需要快速推理且关注可解释性的应用（如实时图像生成）具有实际意义。