DeepSeek: GitHub 新仓库(资讯)70DeepSeek 开源了 DeepGEMM,一个专为 FP8 矩阵乘法设计的高性能库。该库支持密集和 MoE 分组 GEMM,性能优异,在 NVIDIA Hopper GPU 上可达 1350+ TFLOPS。DeepGEMM 采用轻量级即时编译(JIT)方式,核心代码仅约 300 行,但通过精细的调优实现了接近理论峰值的性能。对于使用 FP8 进行训练或推理的团队,这是一个可以直接集成的高效工具。AI产品DeepGEMMFP8矩阵乘法开源/仓库高性能计算推荐理由:DeepGEMM 解决了 FP8 矩阵乘法的性能瓶颈,做大规模模型训练或推理的团队可以直接集成,获得接近理论峰值的算力利用率,值得一试。
DeepSeek: GitHub 新仓库(资讯)70DeepSeek 的 GitHub 组织页展示了其多个关键开源项目,包括高效FP8内核DeepGEMM、面向AI训练和推理的高性能分布式文件系统3FS、多头部隐式注意力内核FlashMLA、专家并行通信库DeepEP,以及用于V3/R1训练的双向流水线并行算法DualPipe等。这些仓库总计获得数万星标,反映了社区对DeepSeek技术栈的高度关注。此次页面加载存在部分错误,但不影响对核心开源成果的概览。AI模型开源/仓库推理模型基础设施分布式训练DeepGEMM推荐理由:DeepSeek 的开源仓库是其技术实力的集中体现,覆盖了从底层计算内核到分布式训练框架的全链路优化,对追求高效AI基础设施的开发者有重要参考价值。