AITOP

5月15日

11:17

arXiv cs.LG@Saisab Sadhu, Pratinav Seth, Vinay Kumar Sankarapu

精选73

现有机器遗忘评估仅在全精度模型上进行，但实际部署的语言模型都会经过量化。研究发现，4-bit量化可以逆转梯度下降法的遗忘效果，而能抵抗量化的方法又几乎不改变模型。MANSU通过因果电路归因定位最小遗忘子图，结合零空间投影和参数幅度下限，首次实现了遗忘效果在量化后不反弹。该方法还提出了电路归因散度（CAD）作为新的验证指标，能区分结构擦除与行为抑制。实验表明，MANSU在多个模型和基准上同时满足遗忘、保留、抗量化和结构擦除四个目标。

论文机器遗忘量化因果归因模型安全 MANSU

推荐理由：量化会悄悄恢复你辛苦抹掉的知识——MANSU解决了这个部署中的致命漏洞，做模型安全和对齐的团队值得关注这个新方法。

09:53

arXiv cs.AI@Thomas Witt

精选73

XFP是一种针对大语言模型推理的动态权重量化器，它颠覆了传统工作流：用户只需指定每通道余弦相似度的重建质量阈值（注意力与共享专家用严格阈值，路由专家MoE用宽松阈值），XFP自动确定码本大小、异常值预算和每层打包方式，无需Hessian矩阵、校准数据或手动位宽选择。每个权重矩阵被分解为稀疏fp16异常值残差和密集的子字节索引张量（指向每组的可学习码本）。在Qwen3.5-122B-A10B模型上，XFP在RTX PRO 6000 Blackwell工作站上实现138 tok/s单流解码，GSM8K准确率94.49%，比Marlin INT4快49%。对于无法装入目标内存的模型，XFP提出H-Process：通过迭代两个余弦阈值找到刚好能装入模型且输出合理的操作点。在Qwen3.5-397B-A17B上，H-Process将全部专家装入2×96 GB内存（约3.4有效比特），实现100.9 tok/s长输出解码，GSM8K准确率66.72%，在内存、吞吐量和准确率上同时超越带路由专家剪枝的INT4。

论文量化 LLM推理码本量化异常值分离 XFP

推荐理由：XFP解决了LLM量化中手动调参和校准数据依赖的痛点，做模型部署和推理优化的团队可以直接用上自动化的高质量量化方案，省去大量调参时间。

5月14日

13:27

arXiv cs.AI@Or Ordentlich, Yury Polyanskiy

精选55

本文是量化矩阵乘法研究的第二部分，探讨在第二因子列协方差矩阵已知时的量化策略，该场景常见于大语言模型的权重量化后训练。作者展示了经典的水填充法（waterfilling）如何改进现有LLM量化算法（如GPTQ），后者目前均匀分配比特率。分析表明，仅使用标量INT量化器的WaterSIC方案在高率下性能与信息论极限相差仅0.25比特/条目，且不受随机旋转影响。而GPTQ在随机旋转下与WaterSIC差距在0.1比特以内，表明其在高率下也接近最优。

论文量化 LLM 水填充法 GPTQ 权重量化

推荐理由：做LLM量化的开发者终于有了理论指导——水填充法比均匀分配更优，GPTQ加随机旋转就能接近极限，建议做权重量化的团队点开看看具体实现。

5月13日

19:12

arXiv cs.LG@Tanmaey Gupta, Hayden Prairie, Xiaoxia Wu, Reyna Abhyankar, Qingyang Wu, Austin Silveria, Pragaash Ponnusamy, Jue Wang, Ben Athiwaratkun, Leon Song, Tri Dao, Daniel Y. Fu, Chris De Sa

精选60

量化是加速生成模型推理的标准技术，但传统块浮点（BFP）格式使用基于块最大幅度的固定缩放因子，可能导致量化误差次优。本文提出ScaleSearch方法，通过细粒度搜索利用微缩放格式的尾数位，最小化量化误差。ScaleSearch可集成于后训练量化（PTQ）和低精度注意力机制，实验显示NVFP4量化误差降低27%，Qwen3-8B在MATH500上PTQ提升15点。此外，ScaleSearchAttention算法在Llama 3.1 70B上实现Wikitext-2困惑度降低0.77点，几乎无性能损失。

论文量化块浮点 NVFP4 后训练量化推理加速

推荐理由：做模型量化和推理加速的团队终于有了更优的缩放策略——ScaleSearch直接提升精度且兼容现有方法，建议做低精度部署的开发者试试。

03:14

OpenAI Blog（博客/媒体）

OpenAI举办的Parameter Golf活动吸引了超过1000名参与者和2000多份提交，旨在探索在严格约束下AI辅助机器学习研究、编码智能体、量化及新型模型设计。活动揭示了AI在极端资源限制下的科研潜力，强调了人与AI协作的创新边界。关键成果包括对量化技术的优化和新型模型架构的涌现，表明AI不仅能加速常规任务，还能激发人类研究者的创意。

行业 AI辅助研究编码智能体量化模型设计 OpenAI

推荐理由：该活动为AI辅助研究提供了实证，展示了在严格约束下人类与AI协作所能达到的效果，对理解AI在科研中的角色有参考价值。