AITOP

5月13日

21:35

DeepSeek: GitHub 新仓库（资讯）

0

DeepSeek 发布了 DeepEP，这是一个专为 MoE（混合专家）模型设计的高效通信库，旨在优化专家并行场景下的 GPU 通信效率。它支持低延迟推理和高吞吐量训练，并提供了节点内和节点间的通信优化。该库还引入了低精度操作和 FP8 调度，进一步提升了性能。对于使用 MoE 架构的团队，DeepEP 可以直接集成到现有框架中，显著减少通信开销。

AI模型 MoE 通信库 DeepSeek 开源/仓库 GPU优化

推荐理由：MoE 模型的通信瓶颈是训练和推理的常见痛点，DeepEP 直接解决了这个问题。做大规模 MoE 训练或推理的团队，值得集成试试。

5月11日

22:18

NVIDIA AI@NVIDIAAI

70

NVIDIA AI与SakanaAI Labs合作发表ICML 2026论文，提出专为现代NVIDIA GPU优化的稀疏Transformer内核与格式。核心技术包括TwELL稀疏打包和融合CUDA内核，在大规模训练和推理场景中实现20%以上的加速。论文与代码已公开。

论文稀疏计算 GPU优化 Transformer NVIDIA SakanaAI

推荐理由：该工作展示了硬件厂商与AI研究机构在底层算子优化上的高效协作，直接提升了大模型训练/推理效率，对部署大规模Transformer模型的企业而言有显著成本降低潜力。