AITOP

5月15日

10:10

arXiv: DeepSeek@Libo Sun, Po-wei Harn, Peixiong He, Xiao Qin

精选58

该研究系统评估了七种KV缓存压缩机制在数学推理任务上的表现，发现所有现有方法在小预算下均被拒绝。作者提出一种名为α的简单修改，通过引入多样性惩罚项替代传统argmax-top-k选择，在Qwen-7B和Llama-8B模型上，在64和128预算下，α在两项测试中显著优于基线。该发现表明，最小化的评分修改比复杂的结构重设计更有效，且严格的实验协议使这一不对称性得以显现。

论文 KV缓存压缩推理模型数学推理 Qwen Llama

推荐理由：KV缓存压缩是长上下文推理的关键瓶颈，做LLM推理优化的开发者可以直接参考α方法——它用一行修改就打败了七种复杂方案，值得在自家模型上试试。

5月14日

13:27

arXiv cs.AI@Zedong Liu, Xinyang Ma, Dejun Luo, Hairui Zhao, Bing Lu, Wenjing Huang, Yida Gu, Xingchen Liu, Zheng Wei, Jinyang Liu, Dingwen Tao, Guangming Tan

精选65

KVServe 是首个服务感知的自适应 KV 通信压缩框架，专为分离式 LLM 服务设计。它通过模块化策略空间、贝叶斯分析引擎和服务感知在线控制器，动态选择最优压缩方案。相比固定压缩策略，KVServe 在 PD 分离场景下实现高达 9.13 倍的 JCT 加速，在 KV 分离场景下将 TTFT 降低 32.8 倍。该框架已集成到 vLLM 中，适用于不同模型、GPU 和网络环境。

论文 KV缓存压缩分离式LLM服务 vLLM 自适应优化通信效率

推荐理由：KV 通信已成为分离式 LLM 服务的瓶颈，KVServe 用自适应压缩解决了静态策略的次优问题。做 LLM 推理系统优化或部署大规模服务的团队，这个框架值得关注，可以直接集成到 vLLM 中试用。