arXiv cs.AI@Zedong Liu, Xinyang Ma, Dejun Luo, Hairui Zhao, Bing Lu, Wenjing Huang, Yida Gu, Xingchen Liu, Zheng Wei, Jinyang Liu, Dingwen Tao, Guangming Tan KVServe 是首个服务感知的自适应 KV 通信压缩框架,专为分离式 LLM 服务设计。它通过模块化策略空间、贝叶斯分析引擎和服务感知在线控制器,动态选择最优压缩方案。相比固定压缩策略,KVServe 在 PD 分离场景下实现高达 9.13 倍的 JCT 加速,在 KV 分离场景下将 TTFT 降低 32.8 倍。该框架已集成到 vLLM 中,适用于不同模型、GPU 和网络环境。
推荐理由:KV 通信已成为分离式 LLM 服务的瓶颈,KVServe 用自适应压缩解决了静态策略的次优问题。做 LLM 推理系统优化或部署大规模服务的团队,这个框架值得关注,可以直接集成到 vLLM 中试用。