|
摘要: Speculative decoding (SD) 是一种广泛采用的方法,用于加速大型语言模型(LLMs)的推理,特别是在草稿模型和目标模型之间对齐良好时。然而,最先进的SD方法通常依赖于紧密耦合的基于自注意力的Transformer解码器,通常会增加辅助池化或融合层。这种耦合使它们变得越来越复杂,难以在不同模型之间推广。我们提出了Budget EAGLE(Beagle),我们所知的第一个基于跨注意力的Transformer解码器SD模型,它在消除了池化或辅助组件的同时,实现了与领先的自注意力SD模型(EAGLE-v2)相当的性能,简化了架构,提高了训练效率,并在训练时模拟期间保持稳定的内存使用。为了有效训练这种新型架构,我们提出了Two-Stage Block-Attention Training,这是一种在块级注意力场景中实现训练稳定性和收敛效率的新方法。跨多个LLMs和数据集进行的大量实验表明,Beagle实现了竞争性的推理加速和比EAGLE-v2更高的训练效率,为投机解码中的架构提供了一个强大的替代方案。 更新时间: 2025-09-19 17:11:56 领域: cs.CL,cs.AI
|