AITOP

5月14日

01:10

arXiv cs.LG@Enyi Jiang, Wu Sun

45

野火预测面临罕见极端事件和分布漂移的双重挑战，标准模型常因忽视少数类（火灾）而失效。研究者提出环境自适应偏好优化（EAPO）框架，通过k近邻检索构建与目标环境对齐的数据集，再结合监督学习和偏好优化进行混合微调，重点强化对罕见极端事件的识别。在真实野火预测任务中，EAPO在环境变化下达到ROC-AUC 0.7310，显著提升了极端事件的检测能力。该工作为动态环境下的罕见事件预测提供了新思路。

论文野火预测分布漂移偏好优化长尾分布环境自适应

推荐理由：做环境监测或灾害预测的团队，EAPO 解决了分布漂移下罕见事件难检测的痛点，值得在类似长尾预测任务中试试。

5月11日

11:43

arXiv cs.LG（学术论文）

60

本文提出GraphDPO，一种基于有向无环偏好图的直接偏好优化方法，用于语言模型对齐。传统DPO仅利用成对比较，忽略了多轮生成数据中的传递性和结构信息，导致冲突和优化不稳定。GraphDPO通过图结构的Plackett-Luce目标函数聚合邻域监督，强制传递性，并保持线性复杂度。实验表明，在推理和程序合成任务中，GraphDPO优于成对和列表式对齐方法，是一种可扩展且鲁棒的替代方案。

论文偏好优化 DPO 图结构学习语言模型对齐

推荐理由：该研究从图论视角重新审视偏好对齐，解决了DPO在多响应数据上的局限性，对提升模型训练效率和稳定性具有实际指导意义。