AITOP

5月15日

11:06

arXiv cs.AI@Renning Pang, Tian Lan, Leyuan Liu, Xiaoming Huang, Piao Tong, Xiaosong Zhang

精选58

多轮对话系统在处理长距离依赖时容易丢失关键信息，导致回答不一致。现有方法要么依赖高延迟的外部记忆，要么通过迭代摘要丢失细节。本文提出Self-Recall Thinking (SRT)框架，让模型在推理时自主识别并召回历史有用轮次，生成更一致的回复。SRT包含依赖构建、能力初始化和推理优化三个阶段，通过可验证奖励优化召回和推理。实验表明，SRT在多个数据集上F1提升4.7%，端到端延迟降低14.7%，在推理延迟和准确性间取得更好平衡。

论文多轮对话一致性长距离依赖推理优化 Self-Recall Thinking

推荐理由：做对话系统或客服机器人的团队，SRT解决了长对话中信息稀疏和一致性差的痛点，无需外部模块就能提升效果，值得在长上下文场景中试试。

04:54

Andrew Ng@AndrewYNg

53

Andrew Ng 推出新课程《Transformers in Practice》，与 AMD 合作，由 Sharon Zhou 主讲。课程提供基于 Transformer 的 LLM 的实用视角，帮助理解其行为、诊断推理缓慢等问题，并做出更明智的部署决策。课程包含交互式可视化，而非纯视频，让学员动手探索概念。学员将掌握 LLM 幻觉原因、注意力机制、推理瓶颈诊断及 GPU 加速技术。

AI模型 Transformer LLM 课程推理优化 AMD

推荐理由：想真正理解 LLM 内部机制、诊断推理问题的开发者，这门课能帮你从黑盒用户变成懂原理的实践者，建议直接报名。

5月14日

14:13

Cohere@cohere

精选58

Cohere 宣布其 W4A8 推理方案已集成到 vLLM 中，通过结合 4 位权重（低内存）和 8 位激活（高计算），在 Hopper 架构上实现了解码和预填充阶段的显著加速。相比 W4A16，TTFT（首 token 生成时间）提升高达 58%，TPOT（每 token 输出时间）提升 45%。这一优化让大模型推理在保持低内存占用的同时大幅提升计算效率，适合生产环境部署。

AI模型推理优化 vLLM W4A8 Cohere 模型部署

推荐理由：Cohere 的 W4A8 方案解决了大模型推理中内存与速度的权衡问题，做模型部署和推理优化的团队可以直接在 vLLM 中体验，值得关注。

13:26

arXiv cs.LG@Victor Norgren

精选70

传统 Transformer 推理引擎在流式工作负载中，每次查询都需要 O(n) 的预填充成本，随着上下文增长成本急剧上升。本文提出基于状态会话的数据驱动计算模型，通过持久化 KV 缓存增量更新，将预填充移出关键路径，使查询延迟降至 O(|q|)，与累积上下文大小无关。Flash Queries 机制利用数据到达间的空闲 GPU 周期预评估注册问题并缓存答案，这在无状态引擎中无法实现。多租户连续批处理调度器支持数十个状态会话在单 GPU 上共存，同时保持完整二次自注意力。在流式市场数据基准测试中，参考实现相比 vLLM、SGLang、TensorRT-LLM、llama.cpp 等传统引擎实现最高 5.9 倍加速，且查询延迟不随上下文增长而增加。

论文推理优化流式推理 KV缓存状态会话 Flash Queries

推荐理由：流式推理场景（如实时数据监控、金融交易、对话系统）的开发者终于有了降低延迟的可行方案——把预填充移出关键路径，查询延迟与上下文大小解耦。做高吞吐低延迟推理服务的团队值得关注这个新范式。

5月13日

21:35

DeepSeek: GitHub 新仓库（资讯）

70

DeepSeek 开源了 FlashMLA，一个专为英伟达 Hopper GPU 优化的高效 MLA 解码内核。它针对可变长度序列进行了优化，已在生产中部署。该项目支持 BF16 精度，分页和块大小 64 的块大小，并提供预填充和分页预填充内核。FlashMLA 通过优化内存访问和计算，显著提升了推理性能。开发者可以直接在 GitHub 上获取代码和文档。

AI模型 DeepSeek FlashMLA 开源/仓库推理优化 Hopper GPU

推荐理由：DeepSeek 开源 FlashMLA 解决了大模型推理中 MLA 解码的性能瓶颈，做推理优化和模型部署的开发者可以直接拿来用，值得一试。