AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:基准测试×
5月14日
13:37
百川智能 Baichuan@BaichuanAI
47
百川AI在HealthBench、Hard、Hallucination和ScanBench等多项基准测试中取得领先成绩,其中HealthBench得分65.1,Hard得分44.4,幻觉率仅3.5%低于ChatGPT,ScanBench全站排名第一。这显示了百川AI在医疗、推理和抗幻觉方面的显著进步,对AI应用开发者具有重要参考价值。
AI模型百川AI基准测试医疗AI抗幻觉推理模型

推荐理由:百川AI在多个关键基准上超越ChatGPT,做医疗AI或高可靠性应用的团队值得关注其低幻觉率表现。
01:10
AK@_akhaliq
55
EgoMemReason 是一个新的基准测试,专门用于评估 AI 在长时间自我中心视频理解中的记忆驱动推理能力。该基准要求模型在观看长视频后,基于记忆回答关于事件顺序、因果关系和细节的问题。它填补了现有视频理解基准在长期记忆和推理方面的空白,对开发更智能的视觉助手和机器人有重要意义。
论文基准测试视频理解记忆推理自我中心视频长期推理

推荐理由:做视频理解或具身智能的团队终于有了一个专门测试长期记忆推理的基准——EgoMemReason 直击当前模型在长视频中“看完就忘”的痛点,做相关研究的建议直接拿来评估自己的模型。
5月12日
17:56
AK@_akhaliq
55
Soohak是由数学家精心策划的基准测试,旨在评估大型语言模型(LLM)在科研级别数学问题上的能力。该基准涵盖高等数学的多个领域,包括代数、几何、分析等,要求模型不仅具备计算能力,还需展现推理和创新解题能力。这为评估LLM在专业数学研究中的应用潜力提供了更严格的测试标准。
论文推理模型LLM数学评测基准测试Soohak

推荐理由:Soohak填补了现有数学评测基准在科研深度上的空白,为AI在数学领域的前沿应用提供了更精确的评估工具,有助于推动模型在数学推理和问题解决上的进步。