找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 2|回复: 0

理解和引导推理模型在测试时间的认知行为

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2026-1-4 23:22:18 | 显示全部楼层 |阅读模式
摘要: 大型语言模型(LLMs)通常依赖于长链式思维(CoT)推理来解决复杂任务。虽然有效,但这些轨迹通常是低效的,导致由于生成过多标记而产生高延迟,或者不稳定的推理,交替进行思考不足(浅层、不一致的步骤)和过度思考(重复冗长的推理)。在这项工作中,我们研究了推理轨迹的结构,并揭示了与不同认知行为(如验证和回溯)相关的专门注意头。通过在推理时轻微干预这些头部,我们可以将模型从低效模式中引导出来。基于这一认识,我们提出了一种无需训练的方法CREST,用于在测试时进行认知推理引导。CREST有两个组成部分:(1)一个离线校准步骤,用于识别认知头部并推导头部特定的引导向量,以及(2)一个推理时过程,旋转隐藏表示以抑制沿着这些向量的成分。CREST自适应地抑制无效的推理行为,既提高准确性又降低计算成本。在各种推理基准和模型中,CREST将准确性提高了高达17.5%,同时将标记使用量减少了37.6%,为更快、更可靠的LLM推理提供了一条简单有效的途径。
更新时间: 2025-12-31 02:46:04
领域: cs.CL,cs.AI,cs.LG

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 14:32 , Processed in 0.091255 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表