KV缓存引导用于控制冻结的LLM

于红博 · 发表于 2025-9-30 19:45:57

摘要: 我们提出了缓存引导（cache steering）这一轻量级方法，通过一次性干预直接应用于键-值缓存，隐式地引导语言模型。为了验证其有效性，我们将缓存引导应用于在小型语言模型中诱导思维链推理。我们的方法从推理迹象中构造引导向量，这些迹象可以从教师模型（例如GPT-4o）或现有的人类注释中获得，将模型行为转向更为显式的、多步骤推理，而无需微调或提示修改。在各种推理基准上的实验评估表明，缓存引导改进了模型推理的定性结构和定量任务表现。额外的实验表明，这种方法也适用于更大的模型，并在挑战性数据集（如GPQA和MATH）上实现进一步的收益。与需要持续干预的先前激活引导技术相比，我们一次性的缓存引导在推理延迟、超参数稳定性和与现有推理API集成的便利性方面提供了显著优势。除了简单的推理诱导，我们还展示了缓存引导可以实现推理风格的可控转移（例如逐步、因果、类比），使其成为语言模型行为级别指导的实用工具。

更新时间: 2025-09-26 17:59:54

领域: cs.CL,cs.AI

下载: http://arxiv.org/abs/2507.08799v2

		自动登录	找回密码
密码			立即注册

KV缓存引导用于控制冻结的LLM

浏览过的版块