迷失在标记化中：上下文是解锁科学LLM中生物分子理解的关键

于红博 · 发表于 2025-11-2 19:09:45

摘要: 科学大型语言模型（Sci-LLMs）已经成为加速生物发现的一个有前途的领域。然而，这些模型在处理原始生物分子序列时面临一个根本性挑战：标记化困境。无论是将序列视为一种专门的语言，冒着丢失功能基序信息的风险，还是将其视为一个独立的模态，引入了艰难的对齐挑战，目前的策略根本限制了它们的推理能力。我们挑战了这种以序列为中心的范式，提出了一个更有效的策略，即为Sci-LLMs提供从已建立的生物信息学工具中提取的高级结构化上下文，从而避免直接解释低级嘈杂的序列数据的需要。通过对生物推理任务中领先的Sci-LLMs进行系统比较，我们测试了三种输入模式：仅序列、仅上下文和两者的组合。我们的发现令人震惊：仅上下文方法始终且显著优于所有其他模式。更令人震惊的是，将原始序列与其高级上下文一起包含时始终降低性能，表明即使对于具有专门标记化方案的模型，原始序列也起到信息噪声的作用。这些结果表明，现有Sci-LLMs的主要优势不在于它们初步解释生物分子句法的能力，而在于它们对结构化、可读性强的知识进行推理的深刻能力。因此，我们主张重构Sci-LLMs，不是作为序列解码器，而是作为强大的专家知识推理引擎。这项工作为一类新型混合科学人工智能代理奠定了基础，重新将发展焦点从直接序列解释转向高级知识合成。代码可在https://github.com/opendatalab-raiser/CoKE找到。

更新时间: 2025-10-30 12:09:18

领域: cs.AI

下载: http://arxiv.org/abs/2510.23127v2

		自动登录	找回密码
密码			立即注册