AITOP

5月15日

07:09

Together AI@togethercompute

58

Together AI 研究团队将有七篇论文在 MLSys 2026 会议上发表，展示从研究到生产的 AI 原生云平台成果。这些论文涵盖 AI 系统优化、模型部署效率等关键领域，体现了 Together AI 在 AI 基础设施方面的技术积累。MLSys 是机器学习系统领域的顶级会议，入选多篇论文说明其技术实力获得学术界认可。

行业 MLSys 2026 AI 基础设施系统优化模型部署 Together AI

推荐理由：做 AI 基础设施和模型部署的团队值得关注——Together AI 这七篇论文覆盖了从研究到落地的关键环节，能帮你了解当前 AI 系统优化的前沿方向。

5月14日

14:13

Cohere@cohere

精选58

Cohere 宣布其 W4A8 推理方案已集成到 vLLM 中，通过结合 4 位权重（低内存）和 8 位激活（高计算），在 Hopper 架构上实现了解码和预填充阶段的显著加速。相比 W4A16，TTFT（首 token 生成时间）提升高达 58%，TPOT（每 token 输出时间）提升 45%。这一优化让大模型推理在保持低内存占用的同时大幅提升计算效率，适合生产环境部署。

AI模型推理优化 vLLM W4A8 Cohere 模型部署

推荐理由：Cohere 的 W4A8 方案解决了大模型推理中内存与速度的权衡问题，做模型部署和推理优化的团队可以直接在 vLLM 中体验，值得关注。