5月12日
19:11
arXiv cs.AI@Yaxin Du, Xiyuan Yang, Zhifan Zhou, Wanxu Liu, Zixing Lei, Zimeng Chen, Fenyi Liu, Haotian Wu, Yuzhu Cai, Zexi Liu, Xinyu Zhu, WenHao Wang, Linfeng Zhang, Chen Qian, Siheng Chen
55
DataMaster 提出了一种自主数据工程框架,旨在通过优化数据侧(包括外部数据发现、选择、清洗和转换)来提升固定学习算法的性能,而无需改变算法本身。该框架集成了树状搜索结构、共享数据池和全局记忆模块,以应对数据工程中开放式的搜索空间、分支依赖优化和延迟验证等挑战。在 MLE-Bench Lite 基准上,DataMaster 将奖牌率提升了32.27%;在 PostTrainBench 上,其在 GPQA 上的表现(31.02%)超过了指导模型(30.35%)。这表明自主数据工程有望成为提升机器学习系统性能的有效手段。
推荐理由:DataMaster 展示了自主数据工程的潜力,特别是在模型架构和训练策略标准化后,数据优化成为关键瓶颈。对于机器学习从业者而言,该框架提供了一种系统化的数据自动化方案,可减少人工试错成本,值得关注其在数据发现与组合方面的实际应用效果。