Cohere@cohere精选58Cohere 宣布其 W4A8 推理方案已集成到 vLLM 中,通过结合 4 位权重(低内存)和 8 位激活(高计算),在 Hopper 架构上实现了解码和预填充阶段的显著加速。相比 W4A16,TTFT(首 token 生成时间)提升高达 58%,TPOT(每 token 输出时间)提升 45%。这一优化让大模型推理在保持低内存占用的同时大幅提升计算效率,适合生产环境部署。AI模型推理优化vLLMW4A8Cohere模型部署推荐理由:Cohere 的 W4A8 方案解决了大模型推理中内存与速度的权衡问题,做模型部署和推理优化的团队可以直接在 vLLM 中体验,值得关注。