Cohere@cohere精选58Cohere 发布技术报告,指出基于混合专家模型(MoE)的大型语言模型在推测解码(speculative decoding)中表现更优,打破了传统认知。推测解码是一种加速推理的技术,通常认为对密集模型更有效,但 Cohere 的实验表明 MoE 架构能进一步提升其效率。该发现有望降低推理成本,推动 MoE 模型在实时应用中的部署。论文MoE推测解码推理加速Cohere技术报告推荐理由:做 LLM 推理优化的开发者值得关注——MoE 模型在推测解码上的意外优势可能改变成本结构,建议点开报告看具体数据。
arXiv cs.LG@Tanmaey Gupta, Hayden Prairie, Xiaoxia Wu, Reyna Abhyankar, Qingyang Wu, Austin Silveria, Pragaash Ponnusamy, Jue Wang, Ben Athiwaratkun, Leon Song, Tri Dao, Daniel Y. Fu, Chris De Sa精选60量化是加速生成模型推理的标准技术,但传统块浮点(BFP)格式使用基于块最大幅度的固定缩放因子,可能导致量化误差次优。本文提出ScaleSearch方法,通过细粒度搜索利用微缩放格式的尾数位,最小化量化误差。ScaleSearch可集成于后训练量化(PTQ)和低精度注意力机制,实验显示NVFP4量化误差降低27%,Qwen3-8B在MATH500上PTQ提升15点。此外,ScaleSearchAttention算法在Llama 3.1 70B上实现Wikitext-2困惑度降低0.77点,几乎无性能损失。论文量化块浮点NVFP4后训练量化推理加速推荐理由:做模型量化和推理加速的团队终于有了更优的缩放策略——ScaleSearch直接提升精度且兼容现有方法,建议做低精度部署的开发者试试。