arXiv cs.AI@Zedong Liu, Xinyang Ma, Dejun Luo, Hairui Zhao, Bing Lu, Wenjing Huang, Yida Gu, Xingchen Liu, Zheng Wei, Jinyang Liu, Dingwen Tao, Guangming Tan
精选65
推荐理由:KV 通信已成为分离式 LLM 服务的瓶颈,KVServe 用自适应压缩解决了静态策略的次优问题。做 LLM 推理系统优化或部署大规模服务的团队,这个框架值得关注,可以直接集成到 vLLM 中试用。