AITOP

5月15日

10:10

arXiv: DeepSeek@Libo Sun, Po-wei Harn, Peixiong He, Xiao Qin

精选58

该研究系统评估了七种KV缓存压缩机制在数学推理任务上的表现，发现所有现有方法在小预算下均被拒绝。作者提出一种名为α的简单修改，通过引入多样性惩罚项替代传统argmax-top-k选择，在Qwen-7B和Llama-8B模型上，在64和128预算下，α在两项测试中显著优于基线。该发现表明，最小化的评分修改比复杂的结构重设计更有效，且严格的实验协议使这一不对称性得以显现。

论文 KV缓存压缩推理模型数学推理 Qwen Llama

推荐理由：KV缓存压缩是长上下文推理的关键瓶颈，做LLM推理优化的开发者可以直接参考α方法——它用一行修改就打败了七种复杂方案，值得在自家模型上试试。

5月13日

19:12

arXiv: DeepSeek@Mingxiong Lin, Zhangquan Gong, Maowen Tang, Qian Li, Chuangchuang Wang, Jian Ma, Sutian Huang, Kai Tang, Haonan Lu

精选65

论文发现GRPO算法存在两个效率问题：固定KL系数限制模型探索，均匀采样忽略中等难度题目的信息价值。提出FG-ExPO方法，包含两个轻量组件：基于准确率的自适应KL缩放（AKL）动态调整约束强度，以及高斯课程采样（GCS）聚焦模型学习前沿。在DeepSeek-R1-Distill-Qwen-1.5B和Qwen3-8B-Base上测试，AIME 2025 pass@32从63.33%提升至76.67%，8B模型平均提升2.66%。该方法在固定推理预算下扩大了模型有效探索空间。

论文 GRPO 强化学习数学推理课程学习自适应KL

推荐理由：做LLM数学推理RL训练的团队，GRPO的KL系数和采样策略可以照搬这个改进，AIME 2025上13个点的提升值得一试。