arXiv cs.AI@Ruozhen He, Meng Wei, Ziyan Yang, Vicente Ordonez精选58多镜头视频生成面临跨镜头实体(角色、物体、场景)一致性难题,现有评估方法覆盖有限且指标简单。研究者推出 EntityBench 基准,包含 140 个剧集(2491 个镜头),按难易分三档,最长 50 个镜头、13 个跨镜头角色、8 个场景、22 个物体,并设计三支柱评估套件(画质、指令遵循、跨镜头一致性),仅通过保真门控的实体才计入一致性评分。作为基线,提出 EntityMem 记忆增强系统,在生成前将已验证的实体视觉参考存入持久记忆库。实验表明现有方法跨镜头一致性随镜头间隔急剧下降,而 EntityMem 在角色保真度(Cohen's d = +2.33)和出现率上最优。代码和数据已开源。论文视频生成实体一致性基准测试记忆增强多镜头叙事推荐理由:视频生成领域终于有了严肃的实体一致性基准,做多镜头叙事生成的研究者可以直接用这套评估体系,EntityMem 的记忆方案也值得复现试试。
百川智能 Baichuan@BaichuanAI47百川AI在HealthBench、Hard、Hallucination和ScanBench等多项基准测试中取得领先成绩,其中HealthBench得分65.1,Hard得分44.4,幻觉率仅3.5%低于ChatGPT,ScanBench全站排名第一。这显示了百川AI在医疗、推理和抗幻觉方面的显著进步,对AI应用开发者具有重要参考价值。AI模型百川AI基准测试医疗AI抗幻觉推理模型推荐理由:百川AI在多个关键基准上超越ChatGPT,做医疗AI或高可靠性应用的团队值得关注其低幻觉率表现。
arXiv cs.LG@Tara Bogavelli, Gabrielle Gauthier Melançon, Katrina Stankiewicz, Oluwanifemi Bamgbose, Fanny Riols, Hoang H. Nguyen, Raghav Mehndiratta, Lindsay Devon Brin, Joseph Marinier, Hari Subramani, Anil Madamala, Sridhar Krishna Nemala, Srinivas Sunkara精选65EVA-Bench 是一个全新的端到端评估框架,专门用于测试语音智能体(Voice Agents)在真实对话场景中的表现。它解决了现有基准无法同时模拟动态对话和全面衡量语音特有失败模式的问题。框架包含 213 个企业级场景,并引入两个复合指标:EVA-A(准确性)和 EVA-X(体验),分别评估任务完成度、忠实度、语音保真度以及对话流畅性、简洁性和轮次时机。在 12 个系统上的测试显示,没有系统能同时在两个指标上超过 0.5,且峰值性能与可靠性能差距显著。该框架已开源,为语音智能体的标准化评估提供了新工具。论文语音智能体评估框架基准测试企业应用开源推荐理由:做语音智能体或对话系统的团队终于有了一个能同时测准确性和体验感的基准——EVA-Bench 覆盖了企业场景和噪声鲁棒性,直接帮你对比不同架构的优劣,建议点开看看具体指标设计。
AK@_akhaliq55EgoMemReason 是一个新的基准测试,专门用于评估 AI 在长时间自我中心视频理解中的记忆驱动推理能力。该基准要求模型在观看长视频后,基于记忆回答关于事件顺序、因果关系和细节的问题。它填补了现有视频理解基准在长期记忆和推理方面的空白,对开发更智能的视觉助手和机器人有重要意义。论文基准测试视频理解记忆推理自我中心视频长期推理推荐理由:做视频理解或具身智能的团队终于有了一个专门测试长期记忆推理的基准——EgoMemReason 直击当前模型在长视频中“看完就忘”的痛点,做相关研究的建议直接拿来评估自己的模型。
Anthropic: Engineering(资讯)75Anthropic 宣布其 Claude 3.5 Sonnet 模型在 SWE-bench Verified 基准测试中取得了 49.7% 的通过率,较此前最佳成绩提升了约 10 个百分点。该测试评估 AI 模型解决真实 GitHub 问题的能力,包括代码修复、功能实现等。Claude 3.5 Sonnet 在多个类别中表现优异,尤其在需要多步推理和上下文理解的复杂任务上。这一进展表明 AI 在软件工程自动化领域正快速接近人类水平。AI模型Claude 3.5 SonnetSWE-bench代码修复基准测试编程助手推荐理由:Claude 3.5 Sonnet 在 SWE-bench 上的突破意味着 AI 编程助手离真正解决复杂工程问题更近了一步,做软件开发的团队可以关注这一能力提升对日常代码修复和功能开发的潜在影响。
Anthropic: Research(资讯)75Anthropic 推出了 BioMysteryBench,一个专门用于评估 AI 在生物信息学领域研究能力的基准测试。该基准包含 50 个来自真实生物信息学研究的难题,涵盖基因组学、蛋白质组学、系统生物学等多个子领域。Claude 在测试中展现了较强的分析推理能力,尤其在数据整合和假设生成方面表现突出。这项研究为 AI 在生命科学领域的应用提供了新的评估标准,也展示了 Claude 在专业科研场景中的潜力。论文生物信息学基准测试Claude科研评估Anthropic推荐理由:生物信息学研究者或计算生物学家可以借此了解 Claude 在真实科研问题上的表现,评估其作为辅助工具的实用性。
arXiv cs.LG@Seokwon Jung, Alexander Rubinstein, Arnas Uselis, Sangdoo Yun, Seong Joon Oh精选65MEME 是一个针对 LLM 智能体在多会话环境中记忆能力的新基准,覆盖了多实体和演化两个维度的六项任务,其中三项(级联、缺失、删除)是此前工作未评估的。在 100 个受控场景中测试了六种记忆系统,发现所有系统在默认配置下的依赖推理任务上表现极差(级联任务平均准确率 3%,缺失任务 1%),尽管静态检索性能尚可。提示优化、更深层检索、减少填充噪声以及更强的大模型都无法弥补这一差距。只有基于文件的智能体配合 Claude Opus 4.7 能部分改善,但成本是基准方案的约 70 倍,说明当前依赖推理的解决方案不具备可扩展性。论文LLM 智能体记忆系统基准测试依赖推理MEME推荐理由:做 LLM 智能体长期记忆系统的团队会发现,现有方案在依赖推理上几乎失效——MEME 基准暴露了被忽视的盲区,值得点开看看你的系统能否通过级联和缺失任务。
arXiv: OpenAI@Zhun Wang, Nico Schiller, Hongwei Li, Srijiith Sesha Narayana, Milad Nasr, Nicholas Carlini, Xiangyu Qi, Eric Wallace, Elie Bursztein, Luca Invernizzi, Kurt Thomas, Yan Shoshitaishvili, Wenbo Guo, Jingxuan He, Thorsten Holz, Dawn Song精选75ExploitGym 是一个大规模、多样化的基准测试,用于评估 AI 智能体将安全漏洞转化为实际攻击的能力。该基准包含 898 个来自真实世界漏洞的实例,涵盖用户空间程序、Google V8 JavaScript 引擎和 Linux 内核三个领域。评估显示,前沿模型如 Anthropic 的 Claude Mythos Preview 和 OpenAI 的 GPT-5.5 能成功利用 157 和 120 个漏洞实例,即使在启用常见防御措施后仍保持一定成功率。这项工作揭示了 AI 智能体在网络安全中的双重用途风险,为防御和攻击场景提供了重要测试平台。论文安全漏洞AI智能体基准测试漏洞利用Claude Mythos PreviewGPT-5.5推荐理由:安全研究员和红队成员终于有了评估 AI 攻击能力的标准化工具——ExploitGym 覆盖真实漏洞和防御场景,做渗透测试或 AI 安全评估的团队可以直接拿来用。
arXiv: DeepSeek@Zeynel A. Uluşan, Burak S. Akbudak, Can S. Erer, Gözde Gül Şahin45近期神经定理证明器使用基于可验证奖励的强化学习(RLVR),但面临稀疏奖励问题:困难问题中部分进展无法获得信号。为此,研究者提出学习奖励模型以评估证明质量,但比较不同奖励模型通常需要昂贵的RL训练消融实验。FormalRewardBench是首个专门评估Lean 4形式化定理证明中奖励模型的基准,包含250个偏好对,每个正确证明通过5种专家设计的错误注入策略生成错误变体。评估包括前沿LLM(如Claude Opus 4.5)、判别型LLM(如CompassJudger-1-14B)、通用LLM(如Qwen2.5-72B-Instruct)以及专用定理证明模型(如DeepSeek-Prover-V2-7B)。结果显示前沿LLM表现最佳(59.8%),而专用定理证明器表现最差(24.4%),表明定理证明能力并未迁移到证明评估任务。论文定理证明奖励模型Lean 4基准测试强化学习推荐理由:该基准填补了形式化定理证明中奖励模型评估工具的空白,揭示专用定理证明模型在评估任务上的不足,为改进RL训练信号提供了明确方向。
arXiv cs.AI@Haozhe Zhang, Kaichen Liu, Miaomiao Chen, Lei Li, Shaojie Yang, Cheng Peng, Hanjie Chen65研究者推出BenchCAD,一个统一的基准测试,用于评估多模态大语言模型在工业CAD代码生成上的能力。该基准包含17,900个可执行的CadQuery程序,涵盖106个工业零件系列,如锥齿轮、压缩弹簧和麻花钻。通过视觉问答、图像到代码生成等任务,BenchCAD测试模型在感知、参数抽象和可执行程序合成方面的综合能力。实验显示,当前前沿模型能恢复大致几何形状,但在精确参数和工业设计操作上常失败,如用简单拉伸替代扫掠、放样等关键操作。论文代码生成多模态模型CAD/设计基准测试工业自动化推荐理由:该基准揭示了现有模型在工业级CAD生成上的显著不足,为模型优化和工业自动化提供了明确的评估标准。
arXiv cs.AI@Anna C. Doris, Jacob Thomas Sony, Ghadi Nehme, Era Syla, Amin Heyrani Nobari, Faez Ahmed65CADBench 是一个统一的多模态基准测试,用于评估从图像或3D观测中恢复可编辑CAD程序的能力。该基准包含18,000个样本,涵盖六个基准家族(基于DeepCAD、Fusion 360等)、五种输入模态(如网格、渲染图)和六项指标(几何保真度、可执行性等)。评估了11个CAD专用及通用视觉语言系统,生成超过140万CAD程序。结果显示,在理想输入下专用模型优于通用模型,但模型在几何复杂度和模态变化下表现脆弱,且指标排名不一致。该基准旨在成为可编辑3D重建和多模态CAD理解的诊断工具。论文CAD程序生成多模态基准测试3D重建工程自动化推荐理由:为学界和工业界提供了一个标准化的评估框架,有助于澄清现有CAD程序生成方法的优劣及失败模式,尤其对工程设计自动化领域具有直接参考价值。
AK@_akhaliq55Soohak是由数学家精心策划的基准测试,旨在评估大型语言模型(LLM)在科研级别数学问题上的能力。该基准涵盖高等数学的多个领域,包括代数、几何、分析等,要求模型不仅具备计算能力,还需展现推理和创新解题能力。这为评估LLM在专业数学研究中的应用潜力提供了更严格的测试标准。论文推理模型LLM数学评测基准测试Soohak推荐理由:Soohak填补了现有数学评测基准在科研深度上的空白,为AI在数学领域的前沿应用提供了更精确的评估工具,有助于推动模型在数学推理和问题解决上的进步。
阿里云 Alibaba Cloud@alibaba_cloud65阿里云宣布其AI视频生成模型HappyHorse在Model Studio上线,声称在基准测试中排名第一,具备高速生成和原生音视频同步能力。该模型强调无需排队等待,相比其他模型渲染更高效。这标志着阿里云在视频生成领域的重大进展,可能推动AI视频生成在实时应用中的普及。AI产品视频生成阿里云HappyHorse基准测试音视频同步推荐理由: HappyHorse的发布表明阿里云在视频生成赛道上的快速跟进,其高速和音视频同步特性对直播、短视频等场景有实际价值,但需关注其与Sora等产品的实际性能对比及商用门槛。
arXiv: DeepSeek(学术论文)45意大利ENGINEERING公司发布了EngGPT2MoE-16B-A3B语言模型,采用16B参数MoE架构(3B活跃参数)。在国际基准测试(ARC-Challenge、GSM8K、MMLU等)中,该模型全面优于FastwebMIIA-7B、Minerva-7B等意大利本土模型。与同规模MoE模型相比,EngGPT2在多数指标上超过DeepSeek-MoE-16B-Chat和Moonlight-16B-A3B,但落后于GPT-OSS-20B。在意大利语数据集ITALIC上,模型表现仅次于Velvet-14B。研究认为该模型是意大利原生大语言模型的重要进步。论文大语言模型MoE意大利语EngGPT2基准测试推荐理由:该评测展示了意大利本土LLM的最新进展,对关注多语言模型(尤其是意大利语)的研究者和开发者具有参考价值,也反映了MoE架构在中等参数规模下的实际性能水平。
Ethan Mollick@emollick30作者指出,尽管AI基准测试存在诸多问题,但相比机器人领域,追踪AI进展仍容易得多。机器人领域的演示视频(如机器人赛跑或洗衣服)缺乏独立、标准化的基准测试,难以量化其真实能力。作者质疑是否存在类似ARC-AGI那样的独立机器人基准测试,并暗示这可能导致对机器人进展的评估更加主观。行业基准测试机器人评估体系AI进展透明度推荐理由:该评论揭示了AI与机器人领域评估体系的不对称性,提醒从业者关注机器人基准测试的缺失及其对行业透明度的影响。