摘要: 科学大型语言模型(Sci-LLMs)已经成为加速生物发现的一个有前途的领域。然而,这些模型在处理原始生物分子序列时面临一个根本性挑战:标记化困境。无论是将序列视为一种专门的语言,冒着丢失功能基序信息的风险,还是将其视为一个独立的模态,引入了艰难的对齐挑战,目前的策略根本限制了它们的推理能力。我们挑战了这种以序列为中心的范式,提出了一个更有效的策略,即为Sci-LLMs提供从已建立的生物信息学工具中提取的高级结构化上下文,从而避免直接解释低级嘈杂的序列数据的需要。通过对生物推理任务中领先的Sci-LLMs进行系统比较,我们测试了三种输入模式:仅序列、仅上下文和两者的组合。我们的发现令人震惊:仅上下文方法始终且显著优于所有其他模式。更令人震惊的是,将原始序列与其高级上下文一起包含时始终降低性能,表明即使对于具有专门标记化方案的模型,原始序列也起到信息噪声的作用。这些结果表明,现有Sci-LLMs的主要优势不在于它们初步解释生物分子句法的能力,而在于它们对结构化、可读性强的知识进行推理的深刻能力。因此,我们主张重构Sci-LLMs,不是作为序列解码器,而是作为强大的专家知识推理引擎。这项工作为一类新型混合科学人工智能代理奠定了基础,重新将发展焦点从直接序列解释转向高级知识合成。代码可在https://github.com/opendatalab-raiser/CoKE找到。 更新时间: 2025-10-30 12:09:18 领域: cs.AI
|