AITOP

5月14日

14:13

Cohere@cohere

精选58

Cohere 发布技术报告，指出基于混合专家模型（MoE）的大型语言模型在推测解码（speculative decoding）中表现更优，打破了传统认知。推测解码是一种加速推理的技术，通常认为对密集模型更有效，但 Cohere 的实验表明 MoE 架构能进一步提升其效率。该发现有望降低推理成本，推动 MoE 模型在实时应用中的部署。

论文 MoE 推测解码推理加速 Cohere 技术报告

推荐理由：做 LLM 推理优化的开发者值得关注——MoE 模型在推测解码上的意外优势可能改变成本结构，建议点开报告看具体数据。

5月13日

19:12

arXiv cs.LG@Tanmaey Gupta, Hayden Prairie, Xiaoxia Wu, Reyna Abhyankar, Qingyang Wu, Austin Silveria, Pragaash Ponnusamy, Jue Wang, Ben Athiwaratkun, Leon Song, Tri Dao, Daniel Y. Fu, Chris De Sa

精选60

量化是加速生成模型推理的标准技术，但传统块浮点（BFP）格式使用基于块最大幅度的固定缩放因子，可能导致量化误差次优。本文提出ScaleSearch方法，通过细粒度搜索利用微缩放格式的尾数位，最小化量化误差。ScaleSearch可集成于后训练量化（PTQ）和低精度注意力机制，实验显示NVFP4量化误差降低27%，Qwen3-8B在MATH500上PTQ提升15点。此外，ScaleSearchAttention算法在Llama 3.1 70B上实现Wikitext-2困惑度降低0.77点，几乎无性能损失。

论文量化块浮点 NVFP4 后训练量化推理加速

推荐理由：做模型量化和推理加速的团队终于有了更优的缩放策略——ScaleSearch直接提升精度且兼容现有方法，建议做低精度部署的开发者试试。

00:33

Google Developers Blog（博客/媒体）

加州大学圣地亚哥分校研究者将DFlash（一种块扩散推测解码方法）成功部署到Google TPU上，通过单次前向传播“绘制”整个候选词块，绕过传统自回归逐步预测的顺序瓶颈。该系统在TPU上实现了平均3.13倍的加速，峰值性能接近现有EAGLE-3方法的两倍。该开源方案已集成至vLLM生态，利用TPU的免费并行验证和高品质草稿预测，显著提升复杂推理任务的效率。

AI模型推理加速推测解码 TPU 开源/仓库 vLLM

推荐理由：这一工作展示了扩散式推测解码在TPU上的实际落地价值，突破传统推测解码的顺序瓶颈，尤其利好大规模LLM推理场景。开源集成至vLLM有助于行业快速采用。

5月12日

19:11

arXiv cs.LG@Chenyang Song, Weilin Zhao, Xu Han, Chaojun Xiao, Yingfa Chen, Zhiyuan Liu

DECO是一种针对端侧设备设计的稀疏MoE架构，旨在相同参数预算和训练Token数下达到稠密Transformer的性能。它采用可微分灵活的ReLU路由和可学习专家缩放，结合新激活函数NormSiLU，提高了路由专家激活比率的稳定性和内在稀疏性。实验显示，仅激活20%专家即可匹配稠密模型性能，专用加速核在真实硬件上相比稠密推理加速3倍。这一工作对推动MoE在资源受限设备上的实际部署具有重要意义。

论文稀疏MoE 端侧部署推理加速激活函数模型架构

推荐理由：DECO在保持性能和降低计算开销方面取得了良好平衡，其3倍加速和严格的稀疏性控制对端侧AI部署具有实际参考价值。

5月11日

22:16

AK@_akhaliq

该研究提出了一种连续时间分布匹配方法，用于改进扩散模型的蒸馏效率。传统扩散模型需要多步采样，而该方法通过优化连续时间分布匹配损失，实现了仅需几步即可生成高质量样本。实验表明，该方法在图像生成任务上显著加速推理，同时保持生成质量，对实时应用场景具有重要意义。论文提供了理论分析和实验结果。

论文扩散模型蒸馏图像生成推理加速

推荐理由：该方法为扩散模型加速推理提供了新思路，可能降低生成式AI的部署成本，值得关注后续应用拓展。

11:43

arXiv cs.LG（学术论文）

字节级语言模型（BLT）虽匹配词元级模型性能，但逐字节自回归生成速度慢。本文提出三种加速方法：BLT Diffusion（BLT-D）用辅助扩散目标并行生成多个字节；BLT Self-speculation（BLT-S）通过推测解码扩展补丁边界并验证；BLT Diffusion+Verification（BLT-DV）结合扩散与自回归验证。所有方法在生成任务上估计内存带宽成本降低超50%，消除字节级模型实用化障碍。

论文字节级模型推理加速扩散模型推测解码无分词器

推荐理由：该工作直接解决字节级LLM的核心效率瓶颈，提出的混合推理策略（扩散+推测解码）为无分词器模型走向实际应用提供了可行路径。