DeepSeek: GitHub 新仓库(资讯)70DeepSeek 开源了 FlashMLA,一个专为英伟达 Hopper GPU 优化的高效 MLA 解码内核。它针对可变长度序列进行了优化,已在生产中部署。该项目支持 BF16 精度,分页和块大小 64 的块大小,并提供预填充和分页预填充内核。FlashMLA 通过优化内存访问和计算,显著提升了推理性能。开发者可以直接在 GitHub 上获取代码和文档。AI模型DeepSeekFlashMLA开源/仓库推理优化Hopper GPU推荐理由:DeepSeek 开源 FlashMLA 解决了大模型推理中 MLA 解码的性能瓶颈,做推理优化和模型部署的开发者可以直接拿来用,值得一试。