AITOP

5月13日

21:35

DeepSeek: GitHub 新仓库（资讯）

70

DeepSeek 开源了 FlashMLA，一个专为英伟达 Hopper GPU 优化的高效 MLA 解码内核。它针对可变长度序列进行了优化，已在生产中部署。该项目支持 BF16 精度，分页和块大小 64 的块大小，并提供预填充和分页预填充内核。FlashMLA 通过优化内存访问和计算，显著提升了推理性能。开发者可以直接在 GitHub 上获取代码和文档。

AI模型 DeepSeek FlashMLA 开源/仓库推理优化 Hopper GPU

推荐理由：DeepSeek 开源 FlashMLA 解决了大模型推理中 MLA 解码的性能瓶颈，做推理优化和模型部署的开发者可以直接拿来用，值得一试。