arXiv: DeepSeek@Libo Sun, Po-wei Harn, Peixiong He, Xiao Qin精选58该研究系统评估了七种KV缓存压缩机制在数学推理任务上的表现,发现所有现有方法在小预算下均被拒绝。作者提出一种名为α的简单修改,通过引入多样性惩罚项替代传统argmax-top-k选择,在Qwen-7B和Llama-8B模型上,在64和128预算下,α在两项测试中显著优于基线。该发现表明,最小化的评分修改比复杂的结构重设计更有效,且严格的实验协议使这一不对称性得以显现。论文KV缓存压缩推理模型数学推理QwenLlama推荐理由:KV缓存压缩是长上下文推理的关键瓶颈,做LLM推理优化的开发者可以直接参考α方法——它用一行修改就打败了七种复杂方案,值得在自家模型上试试。
arXiv: DeepSeek@Mingxiong Lin, Zhangquan Gong, Maowen Tang, Qian Li, Chuangchuang Wang, Jian Ma, Sutian Huang, Kai Tang, Haonan Lu精选65论文发现GRPO算法存在两个效率问题:固定KL系数限制模型探索,均匀采样忽略中等难度题目的信息价值。提出FG-ExPO方法,包含两个轻量组件:基于准确率的自适应KL缩放(AKL)动态调整约束强度,以及高斯课程采样(GCS)聚焦模型学习前沿。在DeepSeek-R1-Distill-Qwen-1.5B和Qwen3-8B-Base上测试,AIME 2025 pass@32从63.33%提升至76.67%,8B模型平均提升2.66%。该方法在固定推理预算下扩大了模型有效探索空间。论文GRPO强化学习数学推理课程学习自适应KL推荐理由:做LLM数学推理RL训练的团队,GRPO的KL系数和采样策略可以照搬这个改进,AIME 2025上13个点的提升值得一试。
arXiv: DeepSeek@Xia Yang, Xuanyi Zhang, Hao Hu, Feng Ji60本研究提出一个评估LLM数学推理策略多样性的框架,通过80个AMC和AIME数学问题及217个参考解题策略,测试了四个前沿模型。在单一提示下,所有模型准确率达95%-100%;但在多策略提示下,Gemini生成184个有效策略,DeepSeek 152个,GPT 151个,Claude 110个。模型总共发现50个基准之外的新策略,但在几何和数论领域差距最大。重复运行测试中,最强模型三次运行仅恢复参考集71%的策略。研究认为策略多样性是评估数学推理能力的重要补充维度。论文推理模型数学推理评估框架策略多样性推荐理由:该研究揭示了当前LLM数学能力评估的盲区:高准确率不等于推理多样性。对于数学教育和技术应用而言,理解模型能否灵活切换解题思路至关重要,这一框架为未来评估提供了新方向。
arXiv: DeepSeek@Mingxiong Lin, Zhangquan Gong, Maowen Tang, Qian Li, Chuangchuang Wang, Jian Ma, Sutian Huang, Kai Tang, Haonan Lu70该论文指出GRPO算法在LLM数学推理中的两个效率不足:固定的KL惩罚系数过度限制策略探索,以及均匀采样忽略了中等难度题目的有效梯度信号。作者提出EXPO算法,包含两个轻量模块:AKL根据批次平均准确率动态调整KL正则化强度,GCS按照高斯分布为中等难度题目赋予更高采样权重。在DeepSeek-R1-Distill-Qwen-1.5B和Qwen3-8B-Base上的六项数学推理基准测试中,EXPO在AIME 2025 pass@32上提升了13.34个百分点,从63.33%升至76.67%,8B模型平均pass@32提升2.66。性能增益表明EXPO有效扩大了模型在固定推理成本下的探索边界。论文GRPO/强化学习数学推理自适应KL调节高斯课程采样策略优化推荐理由:该工作针对GRPO在LLM数学推理中的实际瓶颈提出两项轻量改进,AKL与GCS模块即插即用,实验验证显著提升pass@32指标,对强化学习训练策略的优化具有直接指导意义。