找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 46|回复: 0

迷失在标记化中:上下文是解锁科学LLM中生物分子理解的关键

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2025-11-2 19:09:45 | 显示全部楼层 |阅读模式
摘要: 科学大型语言模型(Sci-LLMs)已经成为加速生物发现的一个有前途的领域。然而,这些模型在处理原始生物分子序列时面临一个根本性挑战:标记化困境。无论是将序列视为一种专门的语言,冒着丢失功能基序信息的风险,还是将其视为一个独立的模态,引入了艰难的对齐挑战,目前的策略根本限制了它们的推理能力。我们挑战了这种以序列为中心的范式,提出了一个更有效的策略,即为Sci-LLMs提供从已建立的生物信息学工具中提取的高级结构化上下文,从而避免直接解释低级嘈杂的序列数据的需要。通过对生物推理任务中领先的Sci-LLMs进行系统比较,我们测试了三种输入模式:仅序列、仅上下文和两者的组合。我们的发现令人震惊:仅上下文方法始终且显著优于所有其他模式。更令人震惊的是,将原始序列与其高级上下文一起包含时始终降低性能,表明即使对于具有专门标记化方案的模型,原始序列也起到信息噪声的作用。这些结果表明,现有Sci-LLMs的主要优势不在于它们初步解释生物分子句法的能力,而在于它们对结构化、可读性强的知识进行推理的深刻能力。因此,我们主张重构Sci-LLMs,不是作为序列解码器,而是作为强大的专家知识推理引擎。这项工作为一类新型混合科学人工智能代理奠定了基础,重新将发展焦点从直接序列解释转向高级知识合成。代码可在https://github.com/opendatalab-raiser/CoKE找到。
更新时间: 2025-10-30 12:09:18
领域: cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 23:51 , Processed in 0.081889 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表