AITOP

5月11日

11:43

arXiv cs.LG（学术论文）

60

STARFlow2提出了一种基于自回归归一化流（TarFlow）的统一多模态生成框架，用于处理交错的文本-图像序列。它通过在Pretzel架构中垂直交错预训练VLM流和TarFlow流，并采用深度-浅层流设计和统一的FAE潜空间，实现了文本和视觉输出的缓存友好型生成。实验表明，STARFlow2在图像生成和多模态理解基准上表现强劲，证明了自回归流可以替代扩散模型作为统一多模态建模的基础。这项工作解决了因果文本生成和迭代视觉去噪之间的结构不匹配问题，为更自然的统一生成提供了新范式。

论文多模态自回归流图像生成统一模型文本-图像

推荐理由：STARFlow2展示了自回归归一化流在多模态统一生成中的潜力，为替代基于扩散的图像生成方法提供了新思路，对多模态模型的设计和效率优化有参考价值。

11:43

arXiv cs.AI（学术论文）

35

本文提出SCOPE框架，将复杂的图像生成要求形式化为语义承诺，通过结构化规范持续追踪这些承诺的状态，并条件式调用检索、推理和修复技能以解决未满足的承诺。研究指出当前模型生成中存在的“概念鸿沟”问题，即承诺在生成生命周期中可能被局部解决但无法作为统一操作单元被追踪。为评估承诺级意图实现，作者引入人类标注基准Gen-Arena和实体级通过率指标EGIP，SCOPE在该基准上达到0.60 EGIP，显著优于所有基线，并在WISE-V（0.907）和MindBench（0.61）上表现优异，证明持续承诺追踪对复杂图像生成有效。

论文图像生成语义承诺结构化解耦技能编排评估基准

推荐理由：该工作首次系统定义了图像生成中的语义承诺概念及其生命周期断裂问题，并提供了可操作的框架和评估基准。对追求高可控性图像生成的从业者来说，SCOPE展示了结构化规范追踪如何提升复杂交互场景下的生成质量。

11:42

arXiv cs.AI（学术论文）

精选80

Flow-OPD提出首个将在线策略蒸馏（OPD）集成到Flow Matching模型中的统一后训练框架，有效解决了多任务对齐中的奖励稀疏和梯度干扰问题。该框架采用两阶段对齐策略：先通过单奖励GRPO微调培养领域专用教师模型，再通过Flow冷启动、在线策略采样、任务路由标注和密集轨迹监督将异构专业知识整合到单个学生模型中。研究者还引入了流形锚点正则化（MAR），利用任务无关教师提供全数据监督，避免RL驱动对齐中常见的美学退化。在Stable Diffusion 3.5 Medium上的实验显示，GenEval分数从63提升至92，OCR准确率从59%提升至94%，整体提升约10个百分点，且保持图像保真度和人类偏好对齐，并出现“超越教师”效应。该工作为构建通用文本到图像模型的可扩展对齐范式奠定了基础。

论文图像生成 Flow Matching 在线策略蒸馏多任务对齐 Stable Diffusion 3.5

推荐理由：该工作针对现有多任务对齐中指标相互制约和奖励欺骗的痛点，将LLM领域成熟的OPD方法成功迁移至图像生成领域，并通过冷启动、任务路由和正则化创新提升了效果。实验在关键指标上大幅领先现有方法，对业界构建高性能通用文生图模型具有直接参考价值。