AITOP

5月15日

04:54

Andrew Ng@AndrewYNg

53

Andrew Ng 推出新课程《Transformers in Practice》，与 AMD 合作，由 Sharon Zhou 主讲。课程提供基于 Transformer 的 LLM 的实用视角，帮助理解其行为、诊断推理缓慢等问题，并做出更明智的部署决策。课程包含交互式可视化，而非纯视频，让学员动手探索概念。学员将掌握 LLM 幻觉原因、注意力机制、推理瓶颈诊断及 GPU 加速技术。

AI模型 Transformer LLM 课程推理优化 AMD

推荐理由：想真正理解 LLM 内部机制、诊断推理问题的开发者，这门课能帮你从黑盒用户变成懂原理的实践者，建议直接报名。

5月14日

14:13

Cohere@cohere

精选58

Cohere 宣布其 W4A8 推理方案已集成到 vLLM 中，通过结合 4 位权重（低内存）和 8 位激活（高计算），在 Hopper 架构上实现了解码和预填充阶段的显著加速。相比 W4A16，TTFT（首 token 生成时间）提升高达 58%，TPOT（每 token 输出时间）提升 45%。这一优化让大模型推理在保持低内存占用的同时大幅提升计算效率，适合生产环境部署。

AI模型推理优化 vLLM W4A8 Cohere 模型部署

推荐理由：Cohere 的 W4A8 方案解决了大模型推理中内存与速度的权衡问题，做模型部署和推理优化的团队可以直接在 vLLM 中体验，值得关注。