AITOP

5月15日

10:52

arXiv cs.AI@Ziyu Guo, Rain Liu, Xinyan Chen, Pheng-Ann Heng

精选58

ATLAS 提出了一种新框架，用一个离散的“功能标记”（functional token）同时作为代理操作和潜在视觉推理单元，避免了传统方法中生成中间视觉内容的高计算成本。该标记无需视觉监督，保持标准词汇表格式，可通过下一个词预测生成，兼容标准 SFT 和 RL 训练。针对强化学习中功能标记稀疏的问题，引入 Latent-Anchored GRPO 稳定训练。实验表明 ATLAS 在挑战性基准上表现优异且可解释性强。这项工作为视觉推理研究提供了新范式。

论文视觉推理功能标记强化学习 ATLAS 多模态

推荐理由：ATLAS 用单个词解决视觉推理中计算开销和泛化难题，做多模态或视觉推理的开发者可以直接参考其设计思路，值得关注。

5月12日

19:11

arXiv cs.AI@Ishpuneet Singh, Gursmeep Kaur, Uday Pratap Singh Atwal, Guramrit Singh, Gurjot Singh, Maninder Singh

45

本文发布了BEACON（Behavioral Engine for Authentication & Continuous Monitoring），一个大型多模态行为数据集，包含28名玩家79次《Valorant》游戏会话的430GB同步数据，涵盖鼠标动力学、键盘事件、网络包、屏幕录制、硬件元数据和游戏配置。该数据集旨在填补现有行为认证基准在规模、模态和上下文同步方面的不足，适用于连续认证、行为画像、用户漂移和多模态表示学习研究。数据集和代码已在Hugging Face和GitHub上开源，为下一代行为指纹和网络安全模型提供可复现的基准。

论文多模态行为认证数据集 AI安全

推荐理由：该数据集以高精度、高认知负担的战术射击游戏为测试场景，为行为生物特征研究提供了真实且严苛的基准，对AI安全和连续认证领域具有重要参考价值。

19:11

arXiv cs.AI@Anna C. Doris, Jacob Thomas Sony, Ghadi Nehme, Era Syla, Amin Heyrani Nobari, Faez Ahmed

65

CADBench 是一个统一的多模态基准测试，用于评估从图像或3D观测中恢复可编辑CAD程序的能力。该基准包含18,000个样本，涵盖六个基准家族（基于DeepCAD、Fusion 360等）、五种输入模态（如网格、渲染图）和六项指标（几何保真度、可执行性等）。评估了11个CAD专用及通用视觉语言系统，生成超过140万CAD程序。结果显示，在理想输入下专用模型优于通用模型，但模型在几何复杂度和模态变化下表现脆弱，且指标排名不一致。该基准旨在成为可编辑3D重建和多模态CAD理解的诊断工具。

论文 CAD程序生成多模态基准测试 3D重建工程自动化

推荐理由：为学界和工业界提供了一个标准化的评估框架，有助于澄清现有CAD程序生成方法的优劣及失败模式，尤其对工程设计自动化领域具有直接参考价值。

19:10

arXiv: OpenAI@David F. Ramirez, Tim L. Overman, Kristen Jaskie, Marv Kleine, Andreas Spanias

60

该研究探索将大型语言-视觉模型（LLVM）应用于遥感SAR图像的自动目标识别（ATR）。基于MSTAR公共数据集，研究者构建了包含描述性文本和问答对的训练基准，并利用CLIP和LLaVA等模型进行参数高效微调。实验在识别军事车辆类型等细微特征上达到98%的准确率，显著提升了机器辅助遥感ATR在复杂环境下的能力。这项工作展示了LLVM在合成孔径雷达分析中的潜力，为军事和情报领域的自动化目标识别提供了新途径。

论文多模态 SAR图像自动目标识别 LLaVA CLIP 军事/遥感

推荐理由：该研究首次将LLVM迁移至SAR图像分析，并基于MSTAR数据集建立带标注的ATR基准，为多模态模型在遥感军事应用中的落地提供了可复现的方法论与评估框架。

5月11日

11:43

arXiv cs.LG（学术论文）

60

STARFlow2提出了一种基于自回归归一化流（TarFlow）的统一多模态生成框架，用于处理交错的文本-图像序列。它通过在Pretzel架构中垂直交错预训练VLM流和TarFlow流，并采用深度-浅层流设计和统一的FAE潜空间，实现了文本和视觉输出的缓存友好型生成。实验表明，STARFlow2在图像生成和多模态理解基准上表现强劲，证明了自回归流可以替代扩散模型作为统一多模态建模的基础。这项工作解决了因果文本生成和迭代视觉去噪之间的结构不匹配问题，为更自然的统一生成提供了新范式。

论文多模态自回归流图像生成统一模型文本-图像

推荐理由：STARFlow2展示了自回归归一化流在多模态统一生成中的潜力，为替代基于扩散的图像生成方法提供了新思路，对多模态模型的设计和效率优化有参考价值。