AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:Ensembits×
5月14日
13:26
arXiv cs.LG@Kaiwen Shi, Carlos Oliver
精选65
蛋白质结构分词器(PST)是蛋白质语言建模和功能预测的重要工具,但现有方法只捕捉静态结构的局部几何信息,忽略了蛋白质构象集合中的相关运动和替代状态。研究者提出 Ensembits,这是首个对蛋白质构象集合进行分词的方法,通过残差 VQ-VAE 和帧蒸馏目标在大型分子动力学语料上训练。Ensembits 在 RMSF 预测上优于所有相关方法,在基于 token 的方差分析测试中成为最强的独立结构分词器,并在 EC、GO、结合位点/亲和力预测以及零样本突变效应预测上匹配或超越静态分词器。蒸馏目标还允许从单个预测结构预测动态 token,缓解了动力学数据稀疏问题,为将动力学引入蛋白质语言建模和设计提供了离散词汇。
论文蛋白质语言模型构象集合分词器分子动力学Ensembits

推荐理由:做蛋白质结构预测和语言建模的团队终于有了能处理动态构象的工具——Ensembits 从单个结构就能预测运动模式,比静态分词器更贴近真实生物学,做功能预测和突变效应分析的可以直接用。