DeepSeek: GitHub 新仓库(资讯)0DeepSeek 发布了 DeepEP,这是一个专为 MoE(混合专家)模型设计的高效通信库,旨在优化专家并行场景下的 GPU 通信效率。它支持低延迟推理和高吞吐量训练,并提供了节点内和节点间的通信优化。该库还引入了低精度操作和 FP8 调度,进一步提升了性能。对于使用 MoE 架构的团队,DeepEP 可以直接集成到现有框架中,显著减少通信开销。AI模型MoE通信库DeepSeek开源/仓库GPU优化推荐理由:MoE 模型的通信瓶颈是训练和推理的常见痛点,DeepEP 直接解决了这个问题。做大规模 MoE 训练或推理的团队,值得集成试试。
NVIDIA AI@NVIDIAAI70NVIDIA AI与SakanaAI Labs合作发表ICML 2026论文,提出专为现代NVIDIA GPU优化的稀疏Transformer内核与格式。核心技术包括TwELL稀疏打包和融合CUDA内核,在大规模训练和推理场景中实现20%以上的加速。论文与代码已公开。论文稀疏计算GPU优化TransformerNVIDIASakanaAI推荐理由:该工作展示了硬件厂商与AI研究机构在底层算子优化上的高效协作,直接提升了大模型训练/推理效率,对部署大规模Transformer模型的企业而言有显著成本降低潜力。