AITOP

arXiv cs.AI@Edward De Brouwer, Carl Edwards, Alexander Wu, Jenna Collier, Graham Heimberg, Xiner Li, Meena Subramaniam, Ehsan Hajiramezanali, David Richmond, Jan-Christian Hütter, Sara Mostafavi, Gabriele Scalia

AssayBench是一个面向LLM和智能体的表型筛选基准，基于1920个公开CRISPR筛选数据构建，覆盖5类细胞表型。它将任务转化为基因排名预测，并引入adjusted nDCG指标来评估不同实验间的性能。评估显示现有方法距离理论上限较远，且零样本通用LLM优于生物专用LLM和可训练基线。该基准为虚拟细胞模型和药物发现提供了标准化测试平台。

论文 LLM评估生物信息学虚拟细胞 CRISPR筛选表型筛选

推荐理由：为LLM在生物表型筛选任务中的能力评估提供了首个标准化基准，揭示了当前方法的不足和通用LLM的潜力，对药物研发自动化有实际参考价值。