AITOP

5月11日

11:42

arXiv cs.AI（学术论文）

精选80

Flow-OPD提出首个将在线策略蒸馏（OPD）集成到Flow Matching模型中的统一后训练框架，有效解决了多任务对齐中的奖励稀疏和梯度干扰问题。该框架采用两阶段对齐策略：先通过单奖励GRPO微调培养领域专用教师模型，再通过Flow冷启动、在线策略采样、任务路由标注和密集轨迹监督将异构专业知识整合到单个学生模型中。研究者还引入了流形锚点正则化（MAR），利用任务无关教师提供全数据监督，避免RL驱动对齐中常见的美学退化。在Stable Diffusion 3.5 Medium上的实验显示，GenEval分数从63提升至92，OCR准确率从59%提升至94%，整体提升约10个百分点，且保持图像保真度和人类偏好对齐，并出现“超越教师”效应。该工作为构建通用文本到图像模型的可扩展对齐范式奠定了基础。

论文图像生成 Flow Matching 在线策略蒸馏多任务对齐 Stable Diffusion 3.5

推荐理由：该工作针对现有多任务对齐中指标相互制约和奖励欺骗的痛点，将LLM领域成熟的OPD方法成功迁移至图像生成领域，并通过冷启动、任务路由和正则化创新提升了效果。实验在关键指标上大幅领先现有方法，对业界构建高性能通用文生图模型具有直接参考价值。