|
摘要: 蛋白质配体结合位点的检测是结构基于药物设计的基本步骤。尽管近年来取得了显著进展,但现有的方法、数据集和评估指标面临着几个关键挑战:(1)当前数据集和方法以个体蛋白质-配体复合物为中心,忽略了同一蛋白质的多个复合物可能存在多样的结合位点,引入了显著的统计偏差;(2)配体结合位点检测通常被建模为一个不连续的工作流程,采用二进制分割和后续聚类算法;(3)传统评估指标不能充分反映不同结合位点预测方法的实际性能。为了解决这些问题,我们首先引入了UniSite-DS,第一个以UniProt(独特蛋白质)为中心的配体结合位点数据集,与先前最广泛使用的数据集相比,它包含4.81倍多的多位点数据和2.08倍多的总数据。然后,我们提出了UniSite,第一个由集合预测损失监督的端到端配体结合位点检测框架,具有双射匹配。此外,我们引入了基于交集联合(IoU)的平均精度作为更准确的配体结合位点预测评估指标。对UniSite-DS和几个代表性基准数据集进行的大量实验表明,基于IoU的平均精度提供了更准确的预测质量反映,而UniSite在配体结合位点检测方面优于当前最先进的方法。该数据集和代码将在https://github.com/quanlin-wu/unisite 上公开提供。 更新时间: 2025-10-30 17:59:46 领域: q-bio.QM,cs.AI,cs.LG,q-bio.BM
|