5月12日
19:11
arXiv cs.AI@Edward De Brouwer, Carl Edwards, Alexander Wu, Jenna Collier, Graham Heimberg, Xiner Li, Meena Subramaniam, Ehsan Hajiramezanali, David Richmond, Jan-Christian Hütter, Sara Mostafavi, Gabriele Scalia
60
AssayBench是一个面向LLM和智能体的表型筛选基准,基于1920个公开CRISPR筛选数据构建,覆盖5类细胞表型。它将任务转化为基因排名预测,并引入adjusted nDCG指标来评估不同实验间的性能。评估显示现有方法距离理论上限较远,且零样本通用LLM优于生物专用LLM和可训练基线。该基准为虚拟细胞模型和药物发现提供了标准化测试平台。
推荐理由:为LLM在生物表型筛选任务中的能力评估提供了首个标准化基准,揭示了当前方法的不足和通用LLM的潜力,对药物研发自动化有实际参考价值。
19:11
arXiv cs.AI@Liang Luo, Yinbin Ma, Quanyu Zhu, Vasiliy Kuznetsov, Yuxin Chen, Jian Jiao, Jiecao Yu, Buyun Zhang, Tongyi Tang, Xiaohan Wei, Yanli Zhao, Zeliang Chen, Yuchen Hao, Venkatesh Ranganathan, Sandeep Parab, Yantao Yao, Maxim Naumov, Chunzhi Yang, Shen Li, Ellie Wen, Wenlin Chen, Santanu Kolay, Chunqiang Tang
45
LoKA(低精度内核应用)框架解决了FP8低精度计算在大型推荐模型(LRM)中的困境。由于LRM对数值敏感且包含大量小矩阵乘法和归一化操作,直接应用FP8会降低模型质量并增加训练时间。LoKA通过系统-模型协同设计,包含三个核心组件:LoKA Probe在线评估每层精度误差,LoKA Mods提供提升数值稳定性的模型修改,LoKA Dispatch动态选择最快且安全的FP8内核。该方法使FP8在推荐模型中实用化,同时保障精度和训练效率。
推荐理由:该研究为推荐系统领域提供了实用的低精度训练方案,解决了FP8在数值敏感场景下的适配难题,对工业级推荐模型的训练加速具有实际参考价值。
19:11
arXiv cs.AI@Mohammadreza Armandpour, Fatih Ilhan, David Harrison, Ajay Jaiswal, Duc N. M Hoang, Fartash Faghri, Yizhe Zhang, Minsik Cho, Mehrdad Farajtabar
35
该研究提出了一种无需训练的诊断框架,通过分析每token、每问题、每教师的梯度对齐度,揭示了on-policy蒸馏的有效条件。研究发现:在模型错误回答时蒸馏信号更有效,正确回答时信号噪声大;最优蒸馏配置依赖于学生模型能力和任务类型,不存在通用最优方案。该框架扩展了Google在推理模型训练中的on-policy蒸馏技术,为优化蒸馏策略提供了理论依据。
推荐理由:该研究通过细粒度分析挑战了蒸馏实践中默认假设,为选择教师模型和蒸馏配置提供了理论指导,对大规模推理模型训练具有实际参考价值。
19:11
arXiv cs.AI@Yaxin Du, Xiyuan Yang, Zhifan Zhou, Wanxu Liu, Zixing Lei, Zimeng Chen, Fenyi Liu, Haotian Wu, Yuzhu Cai, Zexi Liu, Xinyu Zhu, WenHao Wang, Linfeng Zhang, Chen Qian, Siheng Chen
55
DataMaster 提出了一种自主数据工程框架,旨在通过优化数据侧(包括外部数据发现、选择、清洗和转换)来提升固定学习算法的性能,而无需改变算法本身。该框架集成了树状搜索结构、共享数据池和全局记忆模块,以应对数据工程中开放式的搜索空间、分支依赖优化和延迟验证等挑战。在 MLE-Bench Lite 基准上,DataMaster 将奖牌率提升了32.27%;在 PostTrainBench 上,其在 GPQA 上的表现(31.02%)超过了指导模型(30.35%)。这表明自主数据工程有望成为提升机器学习系统性能的有效手段。
推荐理由:DataMaster 展示了自主数据工程的潜力,特别是在模型架构和训练策略标准化后,数据优化成为关键瓶颈。对于机器学习从业者而言,该框架提供了一种系统化的数据自动化方案,可减少人工试错成本,值得关注其在数据发现与组合方面的实际应用效果。
5月11日
22:18
NVIDIA AI@NVIDIAAI
70
NVIDIA AI与SakanaAI Labs合作发表ICML 2026论文,提出专为现代NVIDIA GPU优化的稀疏Transformer内核与格式。核心技术包括TwELL稀疏打包和融合CUDA内核,在大规模训练和推理场景中实现20%以上的加速。论文与代码已公开。
推荐理由:该工作展示了硬件厂商与AI研究机构在底层算子优化上的高效协作,直接提升了大模型训练/推理效率,对部署大规模Transformer模型的企业而言有显著成本降低潜力。