找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 11|回复: 0

蛋白质适应性预测的进化特征Profiles

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-10-9 16:32:04 | 显示全部楼层 |阅读模式
摘要: 预测突变对健康的影响对蛋白质工程至关重要,但受限于有限的实验相对于序列空间的大小。使用掩码语言建模(MLM)训练的蛋白质语言模型(pLMs)表现出强大的零射击健康预测能力;我们通过将自然进化解释为隐式奖励最大化,将MLM解释为逆强化学习(IRL),其中现存序列充当专家示范,pLM对数几率作为健康估计,提供一个统一的视角。基于这一视角,我们介绍了EvoIF,这是一个集成了两种互补的进化信号源的轻量级模型:(i)从检索到的同源物中获得的家族内个人资料和(ii)从逆折叠对数中提炼出的跨家族结构进化约束。EvoIF通过一个紧凑的转换块将序列-结构表示与这些个人资料融合起来,产生了用于对数几率评分的校准概率。在ProteinGym(217个突变实验;> 250万突变体)上,EvoIF及其MSA启用的变体在仅使用0.15%的训练数据和比最近的大型模型更少的参数的情况下实现了最先进或具有竞争力的表现。消融实验证实,家族内和跨家族个人资料是互补的,提高了在功能类型、MSA深度、分类群和突变深度之间的鲁棒性。代码将在https://github.com/aim-uofa/EvoIF上公开。
更新时间: 2025-10-08 17:46:02
领域: cs.LG,cs.AI,q-bio.BM,q-bio.QM

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 06:16 , Processed in 0.078085 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表