AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:语言模型对齐×
5月11日
11:43
arXiv cs.LG(学术论文)
60
本文提出GraphDPO,一种基于有向无环偏好图的直接偏好优化方法,用于语言模型对齐。传统DPO仅利用成对比较,忽略了多轮生成数据中的传递性和结构信息,导致冲突和优化不稳定。GraphDPO通过图结构的Plackett-Luce目标函数聚合邻域监督,强制传递性,并保持线性复杂度。实验表明,在推理和程序合成任务中,GraphDPO优于成对和列表式对齐方法,是一种可扩展且鲁棒的替代方案。
论文偏好优化DPO图结构学习语言模型对齐

推荐理由:该研究从图论视角重新审视偏好对齐,解决了DPO在多响应数据上的局限性,对提升模型训练效率和稳定性具有实际指导意义。