|
摘要: "端到端"标签对LLMs来说是一个误称。在实际应用中,它们依赖于一个不可微分的解码过程,需要繁琐地手动调整超参数,比如温度和top-p值。本文介绍了AutoDeco,一种新颖的架构,通过学习控制自己的解码策略实现真正的"端到端"生成。我们在标准transformer中增加了轻量级头部,在每一步动态预测上下文特定的温度和top-p值,同时预测下一个token的对数概率。这种方法将解码转化为一个参数化的、标记级别的过程,使模型能够在一个前向传递中自我调节其采样策略。 通过在八个基准测试上进行大量实验,我们证明AutoDeco不仅明显优于默认的解码策略,而且在与从"入侵测试集"中衍生出来的oracle调优基线相比表现出可比的性能-这是任何静态方法的实际上限。 至关重要的是,我们发现了一种基于指令的解码控制的新兴能力:模型学会解释自然语言命令(例如,"以较低的随机性生成"),并根据标记逐个调整其预测的温度和top-p值,开辟了一种新的可控和交互式LLM解码范式。 更新时间: 2025-10-30 17:01:43 领域: cs.CL,cs.AI
|