AITOP

5月11日

11:43

arXiv cs.LG（学术论文）

38

字节级语言模型（BLT）虽匹配词元级模型性能，但逐字节自回归生成速度慢。本文提出三种加速方法：BLT Diffusion（BLT-D）用辅助扩散目标并行生成多个字节；BLT Self-speculation（BLT-S）通过推测解码扩展补丁边界并验证；BLT Diffusion+Verification（BLT-DV）结合扩散与自回归验证。所有方法在生成任务上估计内存带宽成本降低超50%，消除字节级模型实用化障碍。

论文字节级模型推理加速扩散模型推测解码无分词器

推荐理由：该工作直接解决字节级LLM的核心效率瓶颈，提出的混合推理策略（扩散+推测解码）为无分词器模型走向实际应用提供了可行路径。