摘要: 预测突变对健康的影响对蛋白质工程至关重要,但受限于有限的实验相对于序列空间的大小。使用掩码语言建模(MLM)训练的蛋白质语言模型(pLMs)表现出强大的零射击健康预测能力;我们通过将自然进化解释为隐式奖励最大化,将MLM解释为逆强化学习(IRL),其中现存序列充当专家示范,pLM对数几率作为健康估计,提供一个统一的视角。基于这一视角,我们介绍了EvoIF,这是一个集成了两种互补的进化信号源的轻量级模型:(i)从检索到的同源物中获得的家族内个人资料和(ii)从逆折叠对数中提炼出的跨家族结构进化约束。EvoIF通过一个紧凑的转换块将序列-结构表示与这些个人资料融合起来,产生了用于对数几率评分的校准概率。在ProteinGym(217个突变实验;> 250万突变体)上,EvoIF及其MSA启用的变体在仅使用0.15%的训练数据和比最近的大型模型更少的参数的情况下实现了最先进或具有竞争力的表现。消融实验证实,家族内和跨家族个人资料是互补的,提高了在功能类型、MSA深度、分类群和突变深度之间的鲁棒性。代码将在https://github.com/aim-uofa/EvoIF上公开。 更新时间: 2025-10-08 17:46:02 领域: cs.LG,cs.AI,q-bio.BM,q-bio.QM
|