arXiv cs.LG@Enyi Jiang, Wu Sun45野火预测面临罕见极端事件和分布漂移的双重挑战,标准模型常因忽视少数类(火灾)而失效。研究者提出环境自适应偏好优化(EAPO)框架,通过k近邻检索构建与目标环境对齐的数据集,再结合监督学习和偏好优化进行混合微调,重点强化对罕见极端事件的识别。在真实野火预测任务中,EAPO在环境变化下达到ROC-AUC 0.7310,显著提升了极端事件的检测能力。该工作为动态环境下的罕见事件预测提供了新思路。论文野火预测分布漂移偏好优化长尾分布环境自适应推荐理由:做环境监测或灾害预测的团队,EAPO 解决了分布漂移下罕见事件难检测的痛点,值得在类似长尾预测任务中试试。
arXiv cs.LG(学术论文)60本文提出GraphDPO,一种基于有向无环偏好图的直接偏好优化方法,用于语言模型对齐。传统DPO仅利用成对比较,忽略了多轮生成数据中的传递性和结构信息,导致冲突和优化不稳定。GraphDPO通过图结构的Plackett-Luce目标函数聚合邻域监督,强制传递性,并保持线性复杂度。实验表明,在推理和程序合成任务中,GraphDPO优于成对和列表式对齐方法,是一种可扩展且鲁棒的替代方案。论文偏好优化DPO图结构学习语言模型对齐推荐理由:该研究从图论视角重新审视偏好对齐,解决了DPO在多响应数据上的局限性,对提升模型训练效率和稳定性具有实际指导意义。