AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:推理优化×
5月13日
21:35
DeepSeek: GitHub 新仓库(资讯)
70
DeepSeek 开源了 FlashMLA,一个专为英伟达 Hopper GPU 优化的高效 MLA 解码内核。它针对可变长度序列进行了优化,已在生产中部署。该项目支持 BF16 精度,分页和块大小 64 的块大小,并提供预填充和分页预填充内核。FlashMLA 通过优化内存访问和计算,显著提升了推理性能。开发者可以直接在 GitHub 上获取代码和文档。
AI模型DeepSeekFlashMLA开源/仓库推理优化Hopper GPU

推荐理由:DeepSeek 开源 FlashMLA 解决了大模型推理中 MLA 解码的性能瓶颈,做推理优化和模型部署的开发者可以直接拿来用,值得一试。