arXiv cs.AI@Thomas Witt精选73XFP是一种针对大语言模型推理的动态权重量化器,它颠覆了传统工作流:用户只需指定每通道余弦相似度的重建质量阈值(注意力与共享专家用严格阈值,路由专家MoE用宽松阈值),XFP自动确定码本大小、异常值预算和每层打包方式,无需Hessian矩阵、校准数据或手动位宽选择。每个权重矩阵被分解为稀疏fp16异常值残差和密集的子字节索引张量(指向每组的可学习码本)。在Qwen3.5-122B-A10B模型上,XFP在RTX PRO 6000 Blackwell工作站上实现138 tok/s单流解码,GSM8K准确率94.49%,比Marlin INT4快49%。对于无法装入目标内存的模型,XFP提出H-Process:通过迭代两个余弦阈值找到刚好能装入模型且输出合理的操作点。在Qwen3.5-397B-A17B上,H-Process将全部专家装入2×96 GB内存(约3.4有效比特),实现100.9 tok/s长输出解码,GSM8K准确率66.72%,在内存、吞吐量和准确率上同时超越带路由专家剪枝的INT4。论文量化LLM推理码本量化异常值分离XFP推荐理由:XFP解决了LLM量化中手动调参和校准数据依赖的痛点,做模型部署和推理优化的团队可以直接用上自动化的高质量量化方案,省去大量调参时间。
Together AI@togethercompute45Together AI 推理高级总监 Yineng Zhang 将于 5 月 16 日在 PyCon US 发表演讲,主题为生产环境中 LLM 推理的实战经验。他将讲解 Python 在推理运行时优化中的实际作用、真实部署中遇到的挑战及解决方案,以及大规模推理引擎的新设计方向。该演讲定于美国时间 5 月 16 日 17:00-17:30 在 Grand Ballroom A 举行,适合正在优化推理性能的从业者关注。行业LLM推理生产部署PythonTogether AIPyCon推荐理由:该演讲聚焦于真实部署中的推理优化和引擎设计,对于从事 LLM 服务化、推理加速的工程师和架构师具有直接参考价值。
arXiv cs.AI(学术论文)65Dooly是一种新型LLM推理模拟器,解决了传统模拟器因硬编码配置而需重新分析所有操作的高成本问题。它通过单次推理过程,利用污点传播标记输入维度来源,仅分析数据库中缺失的操作,并复用服务引擎初始化代码隔离有状态操作(如注意力机制)。在两种GPU平台、三种注意力后端和多种模型架构上,Dooly实现了TTFT 5%以内、TPOT 8%以内的模拟准确性,同时将12个模型的分析GPU小时数减少56.4%。这项工作降低了探索最优推理配置的计算成本,对部署效率提升有重要意义。论文推理模拟LLM推理性能优化配置搜索GPU分析推荐理由:Dooly通过结构感知的冗余消除,显著降低了LLM推理配置探索的开销,对需要评估多种硬件、引擎和模型组合的从业者具有实用价值。