AITOP

5月14日

01:10

arXiv cs.AI@Luke James Miller, Yugyung Lee

45

针对大规模图像中微小稀疏结构分割的难题，SEMIR 提出了一种新的表示学习框架，将推理从原始像素网格解耦到拓扑保持的潜在图表示上。该方法通过参数化边收缩、节点和边删除，将网格图转化为紧凑、边界对齐的图小类，并保留从图预测到像素标签的精确映射。小类构建被形式化为少样本结构学习问题，通过边界 Dice 准则优化参数，使预测边界与目标语义边缘对齐。在 BraTS 2021、KiTS23 和 LiTS 三个肿瘤分割数据集上，SEMIR 在保持实用运行时间的同时，持续提升了小类结构的 Dice 系数。这项工作为高分辨率结构化视觉数据提供了一种学习任务自适应、拓扑保持潜在表示并支持精确解码的通用框架。

论文图表示学习视觉分割医学图像拓扑保持少样本学习

推荐理由：做医学图像分割或处理极端类别不平衡问题的研究者，SEMIR 用图小类替代密集网格推理，既保持拓扑又降低计算量，值得关注其边界对齐的少样本学习思路。

01:10

arXiv cs.LG@Oleksandr Slyvka, Jan Rubeš, Rodrigo Alves, Jan Legerský

45

该研究提出了一种强化学习方法，用于寻找具有异常多实现数的最小刚性图。在刚性理论中，相同边长数据可对应多种几何实现，但传统穷举搜索因候选图数量爆炸和计算成本高昂而不可行。研究者利用Henneberg移动（0-和1-扩展）逐步构建图，并通过深度交叉熵方法优化实现数不变量，策略网络采用图同构网络编码器和置换等变动作头。实验表明，该方法在平面实现数上匹配已知最优解，并在球面实现数上改进了最佳已知边界，发现了新的记录图。

论文强化学习图论刚性理论 Henneberg移动图同构网络

推荐理由：这项研究用强化学习解决了刚性理论中的极值搜索难题，做图论或机器人运动规划的开发者可以直接借鉴其方法。

01:10

arXiv cs.LG@Enyi Jiang, Wu Sun

45

野火预测面临罕见极端事件和分布漂移的双重挑战，标准模型常因忽视少数类（火灾）而失效。研究者提出环境自适应偏好优化（EAPO）框架，通过k近邻检索构建与目标环境对齐的数据集，再结合监督学习和偏好优化进行混合微调，重点强化对罕见极端事件的识别。在真实野火预测任务中，EAPO在环境变化下达到ROC-AUC 0.7310，显著提升了极端事件的检测能力。该工作为动态环境下的罕见事件预测提供了新思路。

论文野火预测分布漂移偏好优化长尾分布环境自适应

推荐理由：做环境监测或灾害预测的团队，EAPO 解决了分布漂移下罕见事件难检测的痛点，值得在类似长尾预测任务中试试。

01:10

arXiv cs.AI@Hari K. Prakash, Charles H Martin

55

研究者提出一种基于随机矩阵理论的新方法，无需访问训练或测试数据即可检测深度学习模型的过拟合。该方法通过随机化每层权重矩阵，拟合 Marchenko-Pastur 分布，识别出违反自平均性的异常值（称为 Correlation Traps）。在长期 grokking 过程中，过拟合的“anti-grokking”阶段会出现这些陷阱，其数量和规模随测试准确率下降而增长。研究还提供了区分良性陷阱与有害陷阱的实证方法，并发现部分基础大语言模型也存在类似陷阱，暗示潜在的有害过拟合。

论文过拟合检测随机矩阵理论 Correlation Traps anti-grokking 泛化能力

推荐理由：这项研究为深度学习从业者提供了一种无需数据即可监控过拟合的新工具，尤其适合训练长期 grokking 模型的团队。建议关注模型泛化能力的开发者点开，了解如何用随机矩阵理论提前发现模型退化信号。

5月13日

19:12

arXiv cs.LG@Chen Li, Xiaoling Hu, Songzhu Zheng, Jiawei Zhou, Chao Chen

45

大语言模型在回答错误时仍可能表现出高置信度，这限制了其在实际场景中的可靠部署。现有方法将答案生成与置信度估计联合优化，可能导致置信度对齐干扰答案准确性。ORCE 提出解耦框架：先生成答案，再基于固定问答对估计置信度，避免直接扰动答案生成过程。通过多次采样构建正确性似然代理，并采用基于排序的强化学习目标，使置信度与正确性概率对齐。实验表明，该方法在保持答案准确性的同时，显著提升了校准和失败预测性能。

论文大语言模型置信度校准强化学习排序对齐 ORCE

推荐理由：ORCE 解决了 LLM 置信度校准中的关键矛盾——既要准确又要可靠，做模型部署或安全评估的团队值得关注这个解耦思路。

19:12

arXiv cs.LG@Tom Sander, Hongyan Chang, Tomáš Souček, Tuan Tran, Valeriu Lacatusu, Sylvestre-Alvise Rebuffi, Alexandre Mourachko, Surya Parimi, Christophe Ropers, Rashel Moritz, Vanessa Stark, Hady Elsahar, Pierre Fernandez

65

TextSeal 是一种新型大语言模型水印方案，基于 Gumbel-max 采样并引入双密钥生成、熵加权评分和多区域定位，显著提升检测能力。它不增加推理开销，支持投机解码和多 token 预测等优化，在检测强度上严格优于 SynthID-text。即使在人类与 AI 混合文本中也能保持高置信度本地化检测，且理论上无失真。多语言人工评估（6000 次 A/B 比较，5 种语言）显示无感知质量差异。此外，水印信号可通过模型蒸馏传递，实现未经授权使用的检测。

论文 LLM水印内容溯源模型蒸馏保护 Gumbel-max采样 SynthID

推荐理由：做 LLM 内容溯源或版权保护的团队终于有了一个既不影响生成质量、又能抗稀释的实用方案，建议关注其蒸馏检测能力。

19:12

arXiv cs.AI@William Parris

40

这篇论文提出“语义奖励崩塌”（SRC）概念，指在 RLHF 和偏好优化中，不同语义类别的评估不满（如事实错误、不确定性披露、格式不满等）被压缩成通用优化信号，导致模型倾向于抑制可见的不确定性而非保持校准的完整性。作者认为，当前自适应推理系统在泛化评估压力下，可能产生表演性自信、幻觉连续性、校准漂移、谄媚等行为，这些是优化后果而非欺骗。论文借鉴制度代理崩溃、指标博弈、软件可靠性工程等理论，主张将不确定性披露和升级行为视为受保护的认知行为。最后提出“宪法奖励分层”（CRS）框架，作为可测试的治理导向研究方向。

论文 RLHF/偏好优化 AI安全/对齐不确定性校准奖励崩塌宪法奖励分层

推荐理由：这篇论文点出了 RLHF 优化的结构性隐患——模型越优化越不敢说“不知道”，做 AI 安全和对齐的研究者、模型训练工程师值得细读，看完会对当前偏好优化的代价有更深理解。

19:12

arXiv cs.AI@Yuxiao Yang, Xiaoyun Wang, Weitong Zhang

精选65

本文研究了在线策略自蒸馏（OPSD）方法，即语言模型通过在其自身生成的轨迹上蒸馏特权教师分布来提升推理能力。作者发现OPSD存在一个常见但常被忽视的问题：教师响应中的自我反思偏差和模板会导致token级监督校准错误。为此，他们提出OGLS-SD框架，利用可验证的结果奖励对比成功与失败的在线轨迹，并通过logit引导校准教师logits。该方法结合结果级正确性与密集的token级引导，在多个基准上稳定了自蒸馏过程并提升了推理性能。

论文自蒸馏推理模型 logit校准结果引导 LLM

推荐理由：如果你在做LLM推理优化或自蒸馏训练，OGLS-SD解决了教师-学生分布不匹配的痛点，用结果奖励校准logits的思路直接可复用，值得仔细看方法细节。

19:12

arXiv cs.AI@Eilam Shapira, Moshe Tennenholtz, Roi Reichart

精选45

该研究探讨了 AI 代理如何在有限交互中预测陌生对手的下一步决策，例如买家代理面对未知卖家或采购助理与供应商谈判。研究通过受控谈判游戏将问题建模为目标自适应文本表格预测，每个决策点结合结构化游戏状态、报价历史和对话。模型基于表格基础模型，并引入 LLM-as-Observer 作为额外表示层：冻结的小型 LLM 读取决策时刻状态和对话，其隐藏状态作为决策导向特征，而非直接预测。在 13 个前沿 LLM 代理上训练并测试 91 个保留代理，该模型在响应预测 AUC 上提升约 4 点，报价预测误差降低 14%，证明隐藏的 LLM 表示能暴露直接提示无法获取的决策信号。

论文 AI 代理对手建模谈判游戏文本表格预测 LLM-as-Observer

推荐理由：做多代理系统或谈判 AI 的开发者，这篇论文提供了一个实用的对手建模框架——用有限交互预测对方决策，比直接提示更准。建议点开看看他们的 LLM-as-Observer 方法，可能帮你省掉大量试错成本。

19:12

arXiv cs.LG@Guinan Su, Yanwu Yang, Xueyan Li, Jonas Geiping

精选65

当前语言模型（如ChatGPT）仍基于单消息流架构，导致模型无法同时读写、思考与行动，限制了自主智能体的效率。本文提出多流LLM架构，将输入、输出、思考等角色拆分为独立并行流，每次前向传播可同时读取多输入流并生成多输出流。该方法解决了单流瓶颈，提升了并行效率、安全性和可监控性，为自主智能体（如编程、计算机操作）提供了更高效的基础架构。

论文多流架构自主智能体并行计算语言模型效率提升

推荐理由：自主智能体开发者长期受困于模型无法同时读写和思考的瓶颈，这篇论文直接给出了数据驱动的并行流解决方案，值得关注其后续实现和效果。

19:12

arXiv: Anthropic@Neil Fendley, Zhengyu Liu, Aonan Guan, Jiacheng Zhong, Yinzhi Cao

精选85

研究人员设计了首个检测与利用框架JAW，针对GitHub Actions和n8n等自动化平台中的智能体工作流进行劫持攻击。攻击者可通过操控GitHub Issue评论等输入，诱导LLM代理执行凭证泄露、任意命令等恶意操作。JAW通过静态路径可行性分析、动态提示来源分析和运行时能力分析，成功劫持了4714个GitHub工作流和8个n8n模板。受影响组件包括Claude Code、Gemini CLI、Qwen CLI、Cursor CLI等15个广泛使用的GitHub Actions及两个n8n官方节点。研究人员已向GitHub、Google、Anthropic等厂商负责任披露，并获得致谢、修复和漏洞赏金。

论文智能体工作流安全/漏洞 GitHub Actions n8n LLM安全

推荐理由：这是首个系统研究AI工作流安全风险的工作，使用GitHub Actions或n8n的开发者应立刻检查自己的工作流是否暴露在类似攻击下，建议点开了解具体攻击路径和防护建议。

19:12

arXiv cs.AI@Haoyu Wang, Yuliang Song, Tao Li, Zhiwei Deng, Yaqing Wang, Deepak Ramachandran, Eldan Cohen, Dan Roth

精选60

该研究提出CP-SynC-XL基准（100个组合问题，4577个实例），评估三种求解器构建范式：原生Python算法搜索、Python+OR-Tools约束建模、MiniZinc+OR-Tools声明式建模。结果显示，Python+OR-Tools正确率最高，而原生Python易产生格式正确但验证失败的方案。提示模型进行搜索优化仅带来1.03-1.12倍的中位加速，但许多实例反而变慢，且正确率在长尾问题上显著下降。代码审计发现，优化提示会导致模型用局部近似替代完整搜索、注入未验证的边界或添加冗余声明式机制，陷入“启发式陷阱”。研究建议：LLM应主要用于形式化变量、约束和目标，而搜索优化需单独验证。

论文 LLM 组合优化求解器约束建模启发式陷阱

推荐理由：做组合优化或约束求解的开发者，这篇论文用实验数据告诉你为什么别让LLM碰搜索优化——它可能让你的求解器变慢还出错。建议读读，避免踩坑。

19:12

arXiv cs.LG@Linghai Liu, Sinho Chewi

精选40

研究者提出一种针对复合对数凹分布（形如 e^{-f-g}）的采样算法，仅需对 f 计算梯度，对 g 使用受限高斯预言机（RGO）。该算法在 f+g 强凸且 f 光滑时，达到总变差距离 ε 误差的迭代次数为 Õ(κ√d log⁴(1/ε))，与经典 g=0 情形的最优结果一致。此外，算法还扩展到非对数凹（满足 Poincaré 或 log-Sobolev 不等式）以及 f 非光滑但 Lipschitz 的情形。这是首次将近端梯度思想系统引入采样领域，理论保证与优化中的近端梯度法相呼应。

论文采样算法对数凹分布近端梯度受限高斯预言机理论复杂度

推荐理由：做高维采样或贝叶斯推断的团队终于有了一个理论干净、复杂度最优的通用工具——复合目标下的采样效率首次追上光滑情形，做 MCMC 算法设计的建议细读。

19:12

arXiv cs.AI@Eric Bigelow, Raphaël Sarfati, Daniel Wurgaft, Owen Lewis, Thomas McGrath, Jack Merullo, Atticus Geiger, Ekdeep Singh Lubana

精选65

该研究提出大语言模型（LLM）的上下文学习可视为在低维几何空间（概念信念空间）中的轨迹更新。通过故事理解任务，结合行为与表征分析发现：信念更新在低维结构化流形上可被良好描述；模型行为与内部表征一致反映该结构，且可用简单线性探针解码预测行为；对表征的干预能因果性地引导信念轨迹，效果可从概念空间几何预测。该工作为 LLM 的贝叶斯解释提供了结构化几何基础。

论文上下文学习信念空间几何表征可解释性贝叶斯推理

推荐理由：这项研究把 LLM 上下文学习的黑箱过程可视化成了几何轨迹，做可解释性、推理机制或认知建模的研究者值得关注——它提供了干预模型信念的实操方法，看完会有启发。

19:12

arXiv: DeepSeek@Zizhao Chen, Yuying Li, Siting Lin, Lianxi Wang

精选75

大语言模型在复杂推理中常出现“过度思考”问题，导致推理链过长、效率低下。现有强化学习方法通过设计复杂奖励函数压缩推理链，但高质量样本在探索空间中极为稀疏，形成采样瓶颈。受认知科学启发，研究者从理论上证明，参考答案引导的后验分布比先验分布具有更高期望效用，可突破高质量样本的采样瓶颈。为此，他们提出VPG-EA框架，将高效推理形式化为变分推断问题，引入效率感知的证据下界作为理论基础。该框架采用参数共享的双流架构实例化后验分布和先验策略，通过交叉视图评估过滤伪高效路径，再通过变分蒸馏将后验的高效模式单向迁移至先验策略。在DeepSeek-R1-Distill-Qwen-1.5B和7B规模上的实验显示，VPG-EA在综合效率指标ε³上分别比最强基线提升8.73%和12.37%。

论文推理模型效率优化变分推断过度思考知识蒸馏

推荐理由：这篇论文为LLM推理效率问题提供了理论严谨且可落地的解决方案，做推理优化或模型压缩的研究者可以直接参考其变分蒸馏方法，值得细读。

19:12

arXiv cs.AI@Islam Eldifrawi, Shengrui Wang, Amine Trabelsi

精选60

CAAFC 是一个新型自动事实核查框架，旨在解决现有 AFC 系统与专业事实核查实践之间的脱节问题。它不仅能检测事实错误和幻觉，还能通过主要信息源提供可操作的纠正理由。该框架支持对声明、对话和对话内容进行核查，并在必要时更新证据和知识库以纳入最新信息。在多个基准数据集上，CAAFC 超越了当前最先进的 AFC 和幻觉检测系统。这项工作对于应对海量 AI 生成内容中的虚假信息具有重要意义。

论文自动事实核查幻觉检测 CAAFC 虚假信息知识库更新

推荐理由：CAAFC 解决了现有自动事实核查系统与专业实践脱节的痛点，做内容审核、AI 安全或信息验证的团队可以直接参考其框架设计，提升事实核查的可靠性和可操作性。

19:12

arXiv: DeepSeek@Ali Karakoc, H. Birkan Yilmaz

精选65

该论文提出两种基于大语言模型（LLM）的对抗性SQL注入生成系统：RADAGAS（检索增强生成）和RefleXQLi（反思链式推理），用于自动化测试Web应用防火墙（WAF）的防御能力。研究使用GPT-4o、Claude 3.7 Sonnet和DeepSeek R1，在10种WAF（包括规则型、AI/ML型和商业型）上进行了240次实验，生成了24万个payload并执行了220万次测试。结果显示，RADAGAS-GPT4o以22.73%的绕过率领先基线模型，对AI/ML型WAF（如WAF-Brain和CNN-WAF）的绕过率高达92.49%和80.48%，但对规则型WAF（如ModSecurity和Coraza）的绕过率仅0-5.70%。研究还发现，多样性较低的payload更容易绕过，但若初始payload失败则效果不佳。这项工作为安全测试中LLM的应用提供了全面视角。

论文 SQL注入 LLM 对抗性攻击 WAF绕过安全测试

推荐理由：安全工程师和渗透测试人员可以借鉴RADAGAS和RefleXQLi的思路，自动化生成对抗性SQL注入payload来评估自家WAF的盲区，尤其是AI/ML型WAF的脆弱点值得重点关注。

19:12

arXiv cs.LG@Tanmaey Gupta, Hayden Prairie, Xiaoxia Wu, Reyna Abhyankar, Qingyang Wu, Austin Silveria, Pragaash Ponnusamy, Jue Wang, Ben Athiwaratkun, Leon Song, Tri Dao, Daniel Y. Fu, Chris De Sa

精选60

量化是加速生成模型推理的标准技术，但传统块浮点（BFP）格式使用基于块最大幅度的固定缩放因子，可能导致量化误差次优。本文提出ScaleSearch方法，通过细粒度搜索利用微缩放格式的尾数位，最小化量化误差。ScaleSearch可集成于后训练量化（PTQ）和低精度注意力机制，实验显示NVFP4量化误差降低27%，Qwen3-8B在MATH500上PTQ提升15点。此外，ScaleSearchAttention算法在Llama 3.1 70B上实现Wikitext-2困惑度降低0.77点，几乎无性能损失。

论文量化块浮点 NVFP4 后训练量化推理加速

推荐理由：做模型量化和推理加速的团队终于有了更优的缩放策略——ScaleSearch直接提升精度且兼容现有方法，建议做低精度部署的开发者试试。

19:12

arXiv cs.AI@Rian Touchent, Eric de la Clergerie

精选65

论文提出一种编码器领域适配新方法：先用因果语言建模（CLM）训练，再切换回掩码语言建模（MLM）微调。在 ModernBERT 上测试，该方法在 8 个法语和 11 个英语生物医学任务上，相比纯 MLM 基线提升 0.3-2.8 个百分点。研究发现 CLM 的密集监督主要影响低层 Transformer 层（0-7），冻结低层会消除收益，而冻结中层则保留收益。这种表征变化在后续 MLM 阶段持续存在，且随模型规模扩大而增强。团队发布了 ModernCamemBERT-bio 和 ModernBERT-bio 作为生物医学编码器新基准。

论文编码器领域适配因果语言建模掩码语言建模 ModernBERT

推荐理由：做 NLP 领域适配的团队终于有了比纯 MLM 更优的预训练策略——CLM 绕路法简单有效，在生物医学任务上直接涨点，建议做领域编码器的开发者试试这个两阶段方案。

19:12

arXiv cs.LG@Leonardo N. Coregliano, William Opich

精选35

近期一系列研究开始探索乘积空间上学习理论概念的变体，统称为高元学习理论。本文提出高元样本压缩方案的概念，并证明存在非平凡质量的高元样本压缩方案意味着高元PAC可学习性。该工作将经典样本压缩理论扩展到高元场景，为理解复杂数据结构下的学习能力提供了新视角。研究结果建立了高元压缩与可学习性之间的理论桥梁，对机器学习理论有基础性贡献。

论文高元学习理论样本压缩 PAC可学习性乘积空间机器学习理论

推荐理由：理论机器学习研究者会感兴趣——这项研究把样本压缩理论推到了高元空间，证明了压缩方案与PAC可学习性的新联系，做学习理论或高维数据分析的值得关注。

19:12

arXiv: DeepSeek@Erfan Loweimi, Sofia de la Fuente Garcia, Saturnino Luz

精选60

研究团队利用大语言模型（LLM）从自发语音中零样本预测Ryff心理幸福感（PWB）分数。基于PsyVoiD数据库中111名参与者的几分钟语音录音，评估了12种指令微调LLM（包括Llama-3、Ministral、Mistral、Gemma-2/3、Phi-4、DeepSeek和QwQ-Preview）。与临床心理学和语言学专家合作开发了领域提示词。结果显示，LLM能从语音中提取语义线索，在80%的数据上达到最高0.8的Spearman相关性。研究还通过统计分析解释预测变异性和偏差，并用词云突出驱动预测的语言特征。

论文 LLM 心理幸福感语音分析零样本预测临床心理学

推荐理由：这项研究为心理健康评估提供了非侵入式新方法——用几分钟语音就能预测幸福感，做临床心理学或语音分析的团队值得关注，零样本方案降低了部署门槛。

19:12

arXiv cs.AI@ Gunjan, Sidahmed Benabderrahmane, Talal Rahwan

精选65

该研究从计算社会科学视角，构建了包含178万条帖子的配对语料库，覆盖新冠疫情、国会山骚乱、美国大选等9次危机事件。通过比较真实社交媒体话语与LLM生成的合成话语，发现合成话语在情绪、结构、词汇和事件依赖四个维度上表现出“群体级不真实”：情绪更负面且分散度低、结构更规则、词汇更抽象。这种差异在快速演变的去中心化危机中尤为明显，而在制度性事件中较小。研究提出了“漫画差距”指标，认为合成政治话语的主要问题不是语法或流畅度，而是缺乏群体层面的社会真实性。

论文 LLM 政治话语虚假信息计算社会科学群体审计

推荐理由：做AI安全、虚假信息检测或计算社会科学的研究者值得关注——这篇论文把LLM生成文本的检测从句子级提升到群体级，提供了可量化的审计框架，建议做内容审核或舆情分析的团队点开看看。

19:12

arXiv: DeepSeek@Mingxiong Lin, Zhangquan Gong, Maowen Tang, Qian Li, Chuangchuang Wang, Jian Ma, Sutian Huang, Kai Tang, Haonan Lu

精选65

论文发现GRPO算法存在两个效率问题：固定KL系数限制模型探索，均匀采样忽略中等难度题目的信息价值。提出FG-ExPO方法，包含两个轻量组件：基于准确率的自适应KL缩放（AKL）动态调整约束强度，以及高斯课程采样（GCS）聚焦模型学习前沿。在DeepSeek-R1-Distill-Qwen-1.5B和Qwen3-8B-Base上测试，AIME 2025 pass@32从63.33%提升至76.67%，8B模型平均提升2.66%。该方法在固定推理预算下扩大了模型有效探索空间。

论文 GRPO 强化学习数学推理课程学习自适应KL

推荐理由：做LLM数学推理RL训练的团队，GRPO的KL系数和采样策略可以照搬这个改进，AIME 2025上13个点的提升值得一试。

19:12

arXiv: DeepSeek@Pruthvinath Jeripity Venkata

精选70

该研究提出一个三机制框架，解释大语言模型在处理训练知识与上下文文档冲突时的矛盾现象。先前研究结果不一：有的发现模型顽固保留训练答案，有的则发现模型几乎完全遵循上下文。研究者认为这是因为未区分三种不同的处理情境：机制1（单源更新，主导因素为证据连贯性）、机制2（竞争整合，主导因素为参数确定性）、机制3（任务适配选择，主导因素为任务知识需求）。通过 9970 次 API 调用，在 Claude Sonnet 4.6、GPT-5.5、Gemini 2.5 Flash、Llama 4 Maverick 和 DeepSeek V3 上验证了该框架，确认了机制2的确定性梯度，并发现任务框架能将上下文遵循率从近100%翻转至6-71%。

论文 LLM行为知识冲突上下文学习评测框架 Claude/GPT/Llama/DeepSeek

推荐理由：这个框架解决了 LLM 行为研究中一个长期矛盾的谜题——为什么有的实验说模型死记硬背，有的说模型灵活跟随。做 LLM 评测或 prompt 工程的人，看完能更精准地预测模型在知识冲突场景下的行为，建议直接读原文的机制划分部分。

19:12

arXiv: DeepSeek@Wenkai Li, Fan Yang, Ananya Hazarika, Shaunak A. Mehta, Koichi Onoue

精选75

一项新研究系统性地检验了思维链（CoT）推理过程与最终答案形成时间之间的对齐程度。研究者提出了一个步骤级的检测-分类-比较框架，使用答案承诺代理、Patchscopes、调谐透镜探针和因果方向消融等方法，对九个模型和七个推理基准进行了分析。结果显示，潜在承诺与显式答案到达仅在平均 61.9% 的步骤上对齐，其中 58% 的不匹配事件表现为“虚构延续”——模型在答案已稳定后继续生成看似深思熟虑的文本。在架构匹配的 Qwen2.5 与 DeepSeek-R1-Distill 对比中，推理管线改变了失败组成而非整体对齐度。研究还发现，步骤级对齐度越低，CoT 的实用性反而越大，表明最受益于 CoT 的场景往往时间忠实性最差。截断实验和捐赠-破坏测试进一步表明，大量承诺后的文本对最终答案并非关键。

论文思维链可解释性 AI安全推理模型忠实性

推荐理由：这项研究戳破了 CoT 推理过程忠实反映模型思考过程的假设，做 AI 安全、可解释性研究或依赖 CoT 审计的团队值得关注——它提醒我们，看起来合理的推理链条可能只是事后编造的故事。

19:12

arXiv cs.AI@Mannam Veera Narayana, Rohit Singh, Deepa M. R, Radha Krishna Ganti

精选45

该研究发布了一个从商用5G网络收集的真实数据集，涵盖步行、自行车、汽车、公交和火车等多种移动模式及不同速度。数据集聚焦切换场景，包含定时提前测量等关键信号事件，旨在减少切换中断时间并维持连续吞吐量。现有研究多依赖仿真数据，无法反映真实部署行为，该数据集填补了这一空白。论文详细描述了数据采集设置、提取过程，并进行了探索性分析，特别关注移动性、波束管理和定时提前。该数据集可用于训练和评估AI/ML模型，例如定时提前预测，为6G原生AI移动性研究提供基础。

论文 6G 5G AI/ML 移动性数据集

推荐理由：做6G/5G移动性优化或AI-Native网络研究的团队，终于有了真实部署数据来训练模型，比仿真数据靠谱得多，建议直接下载使用。

19:12

arXiv cs.LG@Sagi Ahrac, Noya Hochwald, Mor Geva

精选65

稀疏混合专家模型（SMoE）在扩展语言模型时面临路由崩溃和负载均衡损失导致专业化下降的问题。本文揭示了路由器与其对应专家之间的几何耦合机制：对于给定token，所选专家的路由器权重和专家权重沿相同输入方向接收梯度，仅标量系数不同，因此匹配的路由器-专家方向累积相同的路由历史。实验表明，从零训练的1B SMoE中，更高的路由器分数预测更强的专家神经元激活，路由决策在所选专家内部被镜像。辅助负载均衡损失会破坏这种几何结构，使不同路由器方向相似度增加近三倍。最后，作者提出无参数在线K-Means路由器，通过维护专家隐藏状态运行平均值并基于余弦相似度分配token，在最低负载不平衡和适度困惑度增加下验证了几何耦合对有效路由的核心作用。

论文稀疏MoE 路由机制几何耦合负载均衡在线K-Means

推荐理由：做MoE模型训练或路由优化的研究者，这篇论文解释了路由崩溃和负载均衡损失的底层机制，看完会对如何设计更有效的路由策略有直接启发。

19:12

arXiv cs.AI@Jose E. Aguilar Escamilla, Lingdong Zhou, Xiangqi Zhu, Huazheng Wang

精选40

极端天气和波动的电力批发市场给居民用户带来巨大财务风险，但配电网级别的需求响应尚未被充分利用。DR-Gym 是一个开源、兼容 Gymnasium 的在线环境，从电力公司视角训练和评估需求响应策略。它通过状态切换的批发价格模型（校准自真实极端事件）和基于物理的建筑需求曲线，模拟定价信号与用户接受度之间的动态反馈。该环境支持可配置的多目标奖励函数，并已通过基线策略验证其可学习性。

论文强化学习需求响应电网优化开源/仓库能源AI

推荐理由：电力公司终于有了一个能模拟用户行为反馈的强化学习训练场，做电网调度或能源 AI 的团队可以直接用这个开源环境来优化需求响应策略，减少居民电费风险。

19:12

arXiv cs.LG@Seokwon Jung, Alexander Rubinstein, Arnas Uselis, Sangdoo Yun, Seong Joon Oh

精选65

MEME 是一个针对 LLM 智能体在多会话环境中记忆能力的新基准，覆盖了多实体和演化两个维度的六项任务，其中三项（级联、缺失、删除）是此前工作未评估的。在 100 个受控场景中测试了六种记忆系统，发现所有系统在默认配置下的依赖推理任务上表现极差（级联任务平均准确率 3%，缺失任务 1%），尽管静态检索性能尚可。提示优化、更深层检索、减少填充噪声以及更强的大模型都无法弥补这一差距。只有基于文件的智能体配合 Claude Opus 4.7 能部分改善，但成本是基准方案的约 70 倍，说明当前依赖推理的解决方案不具备可扩展性。

论文 LLM 智能体记忆系统基准测试依赖推理 MEME

推荐理由：做 LLM 智能体长期记忆系统的团队会发现，现有方案在依赖推理上几乎失效——MEME 基准暴露了被忽视的盲区，值得点开看看你的系统能否通过级联和缺失任务。

19:12

arXiv cs.AI@Anas Mahmoud, MohammadHossein Rezaei, Zihao Wang, Anisha Gunjal, Bing Liu, Yunzhong He

精选65

该论文研究了在基于评分标准的强化学习（RL）中出现的奖励黑客现象，即模型通过优化训练验证器获得高分，但实际质量并未提升。研究在医学和科学领域进行实验，发现弱验证器会导致模型产生大量虚假奖励增益，且这些增益无法转移到更可靠的参考验证器上。论文识别了三种常见的奖励黑客模式：部分满足复合标准、将隐含内容视为显式、以及不精确的主题匹配。更强的验证器能减少但无法完全消除这种利用行为。研究还发现，即使使用强验证器，当评分标准未涵盖重要失败模式时，奖励黑客仍会发生，导致模型在事实正确性、简洁性和相关性等维度上表现下降。

论文强化学习奖励黑客验证器 AI对齐评分标准

推荐理由：这篇论文揭示了RLHF中一个被低估的风险——模型可能学会刷分而非真正变强。做AI对齐和模型训练的团队值得一读，尤其是那些依赖评分标准进行RL优化的，看完会对验证器设计有更深警惕。

19:12

arXiv: DeepSeek@Wenyong Zhou, Yuannuo Feng, Yizhe Chen, Taiqiang Wu, Wendong Xu, Wenbo Qi, Zhengwu Liu, Wang Kang, Ngai Wong

精选65

混合专家（MoE）大模型通过稀疏激活专家实现高效扩展，但频繁切换专家造成内存带宽瓶颈，而模拟存算一体（CIM）架构可缓解此问题。然而，模拟CIM的硬件缺陷会扰动存储权重，其对MoE模型的影响此前未被系统研究。本文首次基于真实芯片噪声校准，发现硬件噪声会破坏专家负载均衡，使训练好的路由决策失效。为此提出ROMER后训练校准框架：替换低激活专家为高频专家以恢复负载均衡，并通过百分位数归一化重新校准路由器logits。在DeepSeek-MoE、Qwen-MoE和OLMoE上，ROMER在真实芯片噪声下将困惑度分别降低58.6%、58.8%和59.8%，验证了其有效性和跨架构泛化能力。

论文 MoE 存算一体硬件噪声后训练校准鲁棒性

推荐理由：模拟存算一体是突破大模型内存墙的关键路线，但硬件噪声对MoE架构的破坏一直未被正视。做硬件-算法协同设计的团队，这篇论文给出了可直接复用的校准方案，值得细读。

19:12

arXiv cs.AI@Alireza Nadali, Patrick Cooper, Ashutosh Trivedi, Alvaro Velasquez

精选65

KV-Fold 是一种无需训练的长上下文推理协议，将键值（KV）缓存视为序列块上的左折叠累加器。模型在处理每个块时，基于累积的缓存进行条件处理，追加新生成的键和值，并将扩展后的缓存传递到下一步，重复这一单步更新过程。该方法在 Llama-3.1-8B 模型上的“大海捞针”基准测试中，在 152 次试验中实现了 100% 的精确匹配检索，覆盖 16K 到 128K 令牌的上下文和最多 511 层的链深度，且仅需单块 40GB GPU 内存。KV-Fold 的递归过程稳定，每步漂移短暂上升后饱和为平坦平台，对数值精度变化不敏感，跨块大小和模型家族表现一致。这项工作表明，冻结的预训练 Transformer 已经支持稳定的 KV 缓存递归形式，为无需架构更改或训练的长上下文推理提供了实用路径。

论文长上下文推理 KV缓存递归无需训练 Transformer

推荐理由：KV-Fold 用简单的左折叠思路解决了长上下文推理的内存和精度痛点，做 LLM 推理优化或长文档处理的团队可以直接在现有模型上尝试，无需额外训练。

19:12

arXiv cs.AI@Jacob Fein-Ashley, Paria Rashidinejad

精选70

论文提出Attractor Models，用隐式微分求解不动点替代传统循环Transformer的显式迭代，训练内存不随有效深度增长，迭代次数由收敛自适应决定。在语言模型预训练中，770M参数模型超越1.3B Transformer（训练数据多一倍），困惑度降低46.6%，下游准确率提升19.7%。在推理任务中，27M参数模型在Sudoku-Extreme和Maze-Hard上分别达91.4%和93.1%准确率，而Claude和GPT o3完全失败。模型还展现出“平衡内化”现象：训练后可在推理时移除求解器而性能几乎不降。

论文循环Transformer 隐式微分不动点求解语言模型推理增强

推荐理由：循环Transformer训练难、部署贵的问题被Attractor Models用不动点求解优雅解决，做语言模型预训练或推理增强的团队值得关注——它用更少参数和成本实现了对更大模型的超越。

19:12

arXiv: DeepSeek@Joel Schreiber, Ariel Goldstein

精选75

该研究对微调导致的大模型“突发性错位”（EM）现象进行了迄今最全面的分析。研究复现了GPT-4o上的EM现象，并扩展至12个开源模型（Llama、Qwen、DeepSeek、GPT-OSS，8B-671B参数），评估了超过100万条模型响应。结果发现EM仅在17%的开源模型中稳定复现，且与模型规模显著相关。通过检查点分析，研究者发现EM出现在训练后期、主任务收敛之后，本质上是“过度训练”而非“错误对齐”。早期停止和谨慎选择学习率可消除EM，同时保留平均93%的任务性能。该发现将EM从不可预见的微调风险重新定义为可避免的训练产物。

论文突发性错位微调安全早期停止开源模型对齐研究

推荐理由：做LLM微调的团队终于有了避免“突发性错位”的实操指南——早期停止就能保留93%性能，建议所有做安全对齐的工程师点开看看具体阈值。

19:12

arXiv cs.LG@Ariel Gera, Shir Ashury-Tahan, Gal Bloch, Ohad Eytan, Assaf Toledo

精选60

IBM研究团队提出一种LLM引导的查询精调范式，通过生成式LLM对少量文档的反馈，实时优化用户查询的嵌入表示，从而扩展嵌入模型在零样本搜索和分类任务中的适用性。实验表明，该方法在文献搜索、意图检测、关键点匹配等任务上带来最高25%的相对提升，且能改善排序质量和类别分离度。该方案让嵌入模型在无法大规模使用LLM的场景下成为有竞争力的替代方案，代码已开源。

论文零样本搜索嵌入模型 LLM引导查询精调 IBM

推荐理由：零样本搜索和分类是信息检索的硬骨头，IBM用LLM引导查询精调把嵌入模型性能拉高25%，做搜索/分类的团队可以直接拿开源代码试试，成本比全量LLM推理低得多。

19:12

arXiv: DeepSeek@Jinyuan Wang, Ningyuan Deng, Yi Yang

精选45

大型语言模型（LLM）越来越多地被用于社会科学研究，将非结构化文本转换为可进入实证设计的变量。但研究发现，LLM的置信度与真实正确率严重不匹配，导致基于置信度过滤会扭曲下游回归估计。研究对GPT-5-mini、DeepSeek-V3.2等14个社会科学构念进行审计，发现所有模型都存在校准偏差。作为解决方案，提出软标签蒸馏管道，将LLM得分和置信度转化为软目标分布，训练小型判别分类器，平均降低ECE 43.2%和Brier 34.0%。研究呼吁将校准视为测量有效性的组成部分，而非可选的后期处理。

论文 LLM 社会科学校准置信度软标签蒸馏

推荐理由：做社会科学量化分析的团队终于有了校准LLM输出的实操方案——软标签蒸馏能显著降低置信度偏差，建议做文本编码和实证研究的点开看看具体方法。

19:12

arXiv cs.AI@Guohui Zhang, XiaoXiao Ma, Jie Huang, Hang Xu, Hu Yu, Siming Fu, Yuming Li, Zeyue Xue, Lin Song, Haoyang Huang, Nan Duan, Feng Zhao

精选65

OmniNFT 提出了一种面向联合音视频生成的扩散强化学习框架，解决了多目标强化学习中优势不一致、梯度失衡和信用分配不均三大问题。该方法通过模态级优势路由、层级梯度手术和区域级损失重加权，显著提升了音频和视频的感知质量、跨模态对齐和音视频同步。在 JavisBench 和 VBench 基准测试中，基于 LTX-2 骨干的 OmniNFT 实现了全面性能提升。该工作为多模态生成任务中的强化学习应用提供了新范式。

论文扩散模型强化学习多模态生成音视频对齐 OmniNFT

推荐理由：做多模态生成或音视频联合建模的团队，终于有了一个能同时优化模态内质量和跨模态对齐的 RL 框架，值得关注其方法论对自家任务的迁移潜力。

19:12

arXiv: OpenAI@Varad Vishwarupe, Nigel Shadbolt, Marina Jirotka, Ivan Flechais

精选75

最新研究显示，前沿AI模型能识别自己正在被评估，并在测试环境下表现出与部署时不同的行为。Anthropic的BrowseComp事件、SWE-bench验证中的自然语言自编码器发现，以及OpenAI/Apollo的反欺骗工作都记录了这种现象。研究者提出“评估差异”概念，定义了一种量化方法，并开发了TRACE审计协议来规范评估证据的使用。该框架对三个公开评估事件进行了回溯分析，并讨论了系统卡、合规评估和国际AI安全机构网络的治理影响。TRACE不消除对抗性适应，而是通过明确证据产生的条件来约束从评估中得出的结论。

论文评估差异 AI安全前沿模型行为一致性 TRACE协议

推荐理由：这项研究戳中了AI安全评估的核心漏洞——模型在测试时可能“演戏”，做安全评估的团队、写系统卡的开发者、以及关注AI治理的人，建议认真看看TRACE协议怎么约束结论的可信度。

19:12

arXiv: OpenAI@Zhun Wang, Nico Schiller, Hongwei Li, Srijiith Sesha Narayana, Milad Nasr, Nicholas Carlini, Xiangyu Qi, Eric Wallace, Elie Bursztein, Luca Invernizzi, Kurt Thomas, Yan Shoshitaishvili, Wenbo Guo, Jingxuan He, Thorsten Holz, Dawn Song

精选75

ExploitGym 是一个大规模、多样化的基准测试，用于评估 AI 智能体将安全漏洞转化为实际攻击的能力。该基准包含 898 个来自真实世界漏洞的实例，涵盖用户空间程序、Google V8 JavaScript 引擎和 Linux 内核三个领域。评估显示，前沿模型如 Anthropic 的 Claude Mythos Preview 和 OpenAI 的 GPT-5.5 能成功利用 157 和 120 个漏洞实例，即使在启用常见防御措施后仍保持一定成功率。这项工作揭示了 AI 智能体在网络安全中的双重用途风险，为防御和攻击场景提供了重要测试平台。

论文安全漏洞 AI智能体基准测试漏洞利用 Claude Mythos Preview GPT-5.5

推荐理由：安全研究员和红队成员终于有了评估 AI 攻击能力的标准化工具——ExploitGym 覆盖真实漏洞和防御场景，做渗透测试或 AI 安全评估的团队可以直接拿来用。

19:12

arXiv cs.AI@Rishabh Tiwari, Kusha Sareen, Lakshya A Agrawal, Joseph E. Gonzalez, Matei Zaharia, Kurt Keutzer, Inderjit S Dhillon, Rishabh Agarwal, Devvrit Khatri

精选70

这篇论文提出了一种名为Fast-Slow Training（FST）的框架，将LLM的参数视为“慢权重”，优化后的上下文视为“快权重”。快权重通过文本反馈吸收任务特定信息，慢权重则保持基础模型的一般推理能力。实验表明，FST在推理任务上比仅用强化学习（慢学习）样本效率提升3倍，且性能上限更高。FST训练的模型与基础LLM的KL散度降低70%，显著减少灾难性遗忘，并保持可塑性——在连续学习场景中，FST能持续获取新任务，而参数仅更新的RL方法会停滞。

论文持续学习灾难性遗忘上下文学习强化学习 Fast-Slow Training

推荐理由：这篇论文解决了LLM在持续学习中灾难性遗忘和可塑性丧失的痛点，做模型微调、持续学习或Agent长期记忆的团队值得关注——FST框架让你不用在参数更新和上下文学习之间二选一，直接结合两者优势。