AITOP

5月13日

00:33

Google Developers Blog（博客/媒体）

60

TorchTPU是Google为TPU打造的原生PyTorch运行栈，旨在最小代码改动下实现高性能分布式训练。它采用“Eager First”模式，并利用XLA编译器优化集群训练。项目计划在2026年进一步降低编译开销，支持动态形状和自定义内核，以支持下一代AI模型的扩展。

AI产品 TPU PyTorch XLA编译器分布式训练 Google

推荐理由：TorchTPU让PyTorch用户能够更顺畅地迁移到TPU，同时保持Eager模式体验，这对需要TPU算力的大规模AI训练场景有直接价值。

00:33

Google Developers Blog（博客/媒体）

60

Google的MaxText框架现在支持在单主机TPU上进行监督微调（SFT）和强化学习（RL），利用JAX和Tunix库实现高效模型优化。开发者可通过GRPO和GSPO等算法轻松调整预训练模型以适应专业任务和复杂推理。该更新简化了从单主机到多主机配置的微调流程，为后训练工作流提供了可扩展路径。

AI产品微调/RL TPU JAX MaxText

推荐理由：这表明Google正在降低TPU上高级模型微调的门槛，让中小规模团队也能在单主机TPU上应用RL算法进行后训练，对AI开发实践有实用价值。

00:33

Google Developers Blog（博客/媒体）

65

加州大学圣地亚哥分校研究者将DFlash（一种块扩散推测解码方法）成功部署到Google TPU上，通过单次前向传播“绘制”整个候选词块，绕过传统自回归逐步预测的顺序瓶颈。该系统在TPU上实现了平均3.13倍的加速，峰值性能接近现有EAGLE-3方法的两倍。该开源方案已集成至vLLM生态，利用TPU的免费并行验证和高品质草稿预测，显著提升复杂推理任务的效率。

AI模型推理加速推测解码 TPU 开源/仓库 vLLM

推荐理由：这一工作展示了扩散式推测解码在TPU上的实际落地价值，突破传统推测解码的顺序瓶颈，尤其利好大规模LLM推理场景。开源集成至vLLM有助于行业快速采用。