AITOP

5月14日

01:10

DeepSeek: GitHub 新仓库（资讯）

75

DeepSeek 开源了 DeepEP，这是首个专为 MoE（混合专家）模型设计的专家并行（EP）通信库。它提供了高吞吐、低延迟的 GPU 内核，支持训练和推理中的全到全通信。DeepEP 还支持低精度操作，如 FP8，并引入了高效的稀疏通信技术。该库已开源在 GitHub 上，开发者可以访问其 Pull Requests 页面了解更多。

AI模型 DeepSeek MoE EP通信库开源/仓库分布式训练

推荐理由：MoE 模型的通信瓶颈一直是训练和推理的痛点，DeepEP 专为此优化，做大规模分布式训练的团队值得关注。

5月13日

00:33

Google Developers Blog（博客/媒体）

60

TorchTPU是Google为TPU打造的原生PyTorch运行栈，旨在最小代码改动下实现高性能分布式训练。它采用“Eager First”模式，并利用XLA编译器优化集群训练。项目计划在2026年进一步降低编译开销，支持动态形状和自定义内核，以支持下一代AI模型的扩展。

AI产品 TPU PyTorch XLA编译器分布式训练 Google

推荐理由：TorchTPU让PyTorch用户能够更顺畅地迁移到TPU，同时保持Eager模式体验，这对需要TPU算力的大规模AI训练场景有直接价值。

00:33

DeepSeek: GitHub 新仓库（资讯）

70

DeepSeek 的 GitHub 组织页展示了其多个关键开源项目，包括高效FP8内核DeepGEMM、面向AI训练和推理的高性能分布式文件系统3FS、多头部隐式注意力内核FlashMLA、专家并行通信库DeepEP，以及用于V3/R1训练的双向流水线并行算法DualPipe等。这些仓库总计获得数万星标，反映了社区对DeepSeek技术栈的高度关注。此次页面加载存在部分错误，但不影响对核心开源成果的概览。

AI模型开源/仓库推理模型基础设施分布式训练 DeepGEMM

推荐理由：DeepSeek 的开源仓库是其技术实力的集中体现，覆盖了从底层计算内核到分布式训练框架的全链路优化，对追求高效AI基础设施的开发者有重要参考价值。