5月12日
19:11
arXiv cs.AI@Edward De Brouwer, Carl Edwards, Alexander Wu, Jenna Collier, Graham Heimberg, Xiner Li, Meena Subramaniam, Ehsan Hajiramezanali, David Richmond, Jan-Christian Hütter, Sara Mostafavi, Gabriele Scalia
60
AssayBench是一个面向LLM和智能体的表型筛选基准,基于1920个公开CRISPR筛选数据构建,覆盖5类细胞表型。它将任务转化为基因排名预测,并引入adjusted nDCG指标来评估不同实验间的性能。评估显示现有方法距离理论上限较远,且零样本通用LLM优于生物专用LLM和可训练基线。该基准为虚拟细胞模型和药物发现提供了标准化测试平台。
推荐理由:为LLM在生物表型筛选任务中的能力评估提供了首个标准化基准,揭示了当前方法的不足和通用LLM的潜力,对药物研发自动化有实际参考价值。