AITOP

5月14日

14:13

Cohere@cohere

精选58

Cohere 发布技术报告，指出基于混合专家模型（MoE）的大型语言模型在推测解码（speculative decoding）中表现更优，打破了传统认知。推测解码是一种加速推理的技术，通常认为对密集模型更有效，但 Cohere 的实验表明 MoE 架构能进一步提升其效率。该发现有望降低推理成本，推动 MoE 模型在实时应用中的部署。

论文 MoE 推测解码推理加速 Cohere 技术报告

推荐理由：做 LLM 推理优化的开发者值得关注——MoE 模型在推测解码上的意外优势可能改变成本结构，建议点开报告看具体数据。

14:13

Cohere@cohere

37

Cohere 与德国 AI 公司 Aleph Alpha 宣布建立跨大西洋合作伙伴关系，旨在为全球企业和政府提供主权级、企业级 AI 解决方案。该联盟结合了 Cohere 的全球规模与 Aleph Alpha 的欧洲研发实力，重点强调安全性、隐私性和信任度。合作将推动主权 AI 的发展，确保数据主权和合规性，尤其适合对数据安全有严格要求的欧洲客户。此举标志着 AI 领域国际合作的新模式，旨在平衡技术领先与地缘政治需求。

行业主权AI 国际合作企业级AI 数据安全 Cohere Aleph Alpha

推荐理由：主权 AI 是企业和政府数据安全的关键，Cohere 与 Aleph Alpha 的联手为欧洲客户提供了合规的 AI 选项，做企业级部署的团队值得关注。

14:13

Cohere@cohere

精选58

Cohere 宣布其 W4A8 推理方案已集成到 vLLM 中，通过结合 4 位权重（低内存）和 8 位激活（高计算），在 Hopper 架构上实现了解码和预填充阶段的显著加速。相比 W4A16，TTFT（首 token 生成时间）提升高达 58%，TPOT（每 token 输出时间）提升 45%。这一优化让大模型推理在保持低内存占用的同时大幅提升计算效率，适合生产环境部署。

AI模型推理优化 vLLM W4A8 Cohere 模型部署

推荐理由：Cohere 的 W4A8 方案解决了大模型推理中内存与速度的权衡问题，做模型部署和推理优化的团队可以直接在 vLLM 中体验，值得关注。