AITOP

5月15日

10:10

arXiv: DeepSeek@Libo Sun, Po-wei Harn, Peixiong He, Xiao Qin

精选58

该研究系统评估了七种KV缓存压缩机制在数学推理任务上的表现，发现所有现有方法在小预算下均被拒绝。作者提出一种名为α的简单修改，通过引入多样性惩罚项替代传统argmax-top-k选择，在Qwen-7B和Llama-8B模型上，在64和128预算下，α在两项测试中显著优于基线。该发现表明，最小化的评分修改比复杂的结构重设计更有效，且严格的实验协议使这一不对称性得以显现。

论文 KV缓存压缩推理模型数学推理 Qwen Llama

推荐理由：KV缓存压缩是长上下文推理的关键瓶颈，做LLM推理优化的开发者可以直接参考α方法——它用一行修改就打败了七种复杂方案，值得在自家模型上试试。