|
摘要: 解码器仅大型语言模型(LLMs)越来越被用于构建有效地将自然语言文本的语义信息编码成密集向量表示的嵌入模型,用于各种嵌入任务。然而,许多现有方法主要集中在去除LLMs中的因果关注掩码,以实现双向关注,潜在地削弱了模型在预训练过程中获取的语义信息的提取能力。此外,领先的单向方法通常依赖额外的输入文本来克服因果关注的固有限制,不可避免地增加了计算成本。在这项工作中,我们提出了Causal2Vec,一个通用的嵌入模型,旨在增强解码器仅LLMs的性能,而无需改变其原始架构或引入显着的计算开销。具体而言,我们首先采用轻量级的BERT风格模型将输入文本预编码为单个上下文标记,然后将其前置到LLM的输入序列中,使每个标记能够捕获上下文化信息,即使不关注未来标记。此外,为了减轻由于最后标记池化引入的最近偏见,并帮助LLMs更好地利用编码在上下文标记中的语义信息,我们将上下文化和EOS标记的最后隐藏状态连接为最终文本嵌入。在实践中,与仅在公开可用检索数据集上训练的模型相比,Causal2Vec在大规模文本嵌入基准测试(MTEB)上取得了最先进的性能,同时将所需序列长度减少了高达85%,推理时间减少了高达82%。 更新时间: 2025-09-19 13:35:35 领域: cs.CL,cs.AI
|