Cohere@cohere精选58Cohere 发布技术报告,指出基于混合专家模型(MoE)的大型语言模型在推测解码(speculative decoding)中表现更优,打破了传统认知。推测解码是一种加速推理的技术,通常认为对密集模型更有效,但 Cohere 的实验表明 MoE 架构能进一步提升其效率。该发现有望降低推理成本,推动 MoE 模型在实时应用中的部署。论文MoE推测解码推理加速Cohere技术报告推荐理由:做 LLM 推理优化的开发者值得关注——MoE 模型在推测解码上的意外优势可能改变成本结构,建议点开报告看具体数据。
arXiv cs.LG@Tanmaey Gupta, Hayden Prairie, Xiaoxia Wu, Reyna Abhyankar, Qingyang Wu, Austin Silveria, Pragaash Ponnusamy, Jue Wang, Ben Athiwaratkun, Leon Song, Tri Dao, Daniel Y. Fu, Chris De Sa精选60量化是加速生成模型推理的标准技术,但传统块浮点(BFP)格式使用基于块最大幅度的固定缩放因子,可能导致量化误差次优。本文提出ScaleSearch方法,通过细粒度搜索利用微缩放格式的尾数位,最小化量化误差。ScaleSearch可集成于后训练量化(PTQ)和低精度注意力机制,实验显示NVFP4量化误差降低27%,Qwen3-8B在MATH500上PTQ提升15点。此外,ScaleSearchAttention算法在Llama 3.1 70B上实现Wikitext-2困惑度降低0.77点,几乎无性能损失。论文量化块浮点NVFP4后训练量化推理加速推荐理由:做模型量化和推理加速的团队终于有了更优的缩放策略——ScaleSearch直接提升精度且兼容现有方法,建议做低精度部署的开发者试试。
Google Developers Blog(博客/媒体)65加州大学圣地亚哥分校研究者将DFlash(一种块扩散推测解码方法)成功部署到Google TPU上,通过单次前向传播“绘制”整个候选词块,绕过传统自回归逐步预测的顺序瓶颈。该系统在TPU上实现了平均3.13倍的加速,峰值性能接近现有EAGLE-3方法的两倍。该开源方案已集成至vLLM生态,利用TPU的免费并行验证和高品质草稿预测,显著提升复杂推理任务的效率。AI模型推理加速推测解码TPU开源/仓库vLLM推荐理由:这一工作展示了扩散式推测解码在TPU上的实际落地价值,突破传统推测解码的顺序瓶颈,尤其利好大规模LLM推理场景。开源集成至vLLM有助于行业快速采用。
arXiv cs.LG@Chenyang Song, Weilin Zhao, Xu Han, Chaojun Xiao, Yingfa Chen, Zhiyuan Liu65DECO是一种针对端侧设备设计的稀疏MoE架构,旨在相同参数预算和训练Token数下达到稠密Transformer的性能。它采用可微分灵活的ReLU路由和可学习专家缩放,结合新激活函数NormSiLU,提高了路由专家激活比率的稳定性和内在稀疏性。实验显示,仅激活20%专家即可匹配稠密模型性能,专用加速核在真实硬件上相比稠密推理加速3倍。这一工作对推动MoE在资源受限设备上的实际部署具有重要意义。论文稀疏MoE端侧部署推理加速激活函数模型架构推荐理由:DECO在保持性能和降低计算开销方面取得了良好平衡,其3倍加速和严格的稀疏性控制对端侧AI部署具有实际参考价值。
AK@_akhaliq55该研究提出了一种连续时间分布匹配方法,用于改进扩散模型的蒸馏效率。传统扩散模型需要多步采样,而该方法通过优化连续时间分布匹配损失,实现了仅需几步即可生成高质量样本。实验表明,该方法在图像生成任务上显著加速推理,同时保持生成质量,对实时应用场景具有重要意义。论文提供了理论分析和实验结果。论文扩散模型蒸馏图像生成推理加速推荐理由:该方法为扩散模型加速推理提供了新思路,可能降低生成式AI的部署成本,值得关注后续应用拓展。
arXiv cs.LG(学术论文)38字节级语言模型(BLT)虽匹配词元级模型性能,但逐字节自回归生成速度慢。本文提出三种加速方法:BLT Diffusion(BLT-D)用辅助扩散目标并行生成多个字节;BLT Self-speculation(BLT-S)通过推测解码扩展补丁边界并验证;BLT Diffusion+Verification(BLT-DV)结合扩散与自回归验证。所有方法在生成任务上估计内存带宽成本降低超50%,消除字节级模型实用化障碍。论文字节级模型推理加速扩散模型推测解码无分词器推荐理由:该工作直接解决字节级LLM的核心效率瓶颈,提出的混合推理策略(扩散+推测解码)为无分词器模型走向实际应用提供了可行路径。