找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 21|回复: 0

大型语言模型在持续预训练下的紧急语言适应能力

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-22 19:56:14 | 显示全部楼层 |阅读模式
摘要: 持续预训练(CPT)是一种流行的方法,用于将现有的大型语言模型(LLMs)适应新的语言。在这样做时,通常会在混合中包含一部分英语数据,但其作用尚未得到认真研究。在这项工作中,我们展示包含英语不会影响验证困惑度,但对于目标语言的下游能力的出现至关重要。我们引入了一个语言无关的上下文学习(ICL)基准,它揭示了在不包含英语时,CPT早期出现灾难性遗忘。这进而损害了模型推广到目标语言下游提示的能力,如困惑度所衡量的那样,即使在训练后期才表现为准确性,可以与模型参数的大幅度变化联系起来。基于这些见解,我们引入了课程学习和权重的指数移动平均(EMA)作为减少对英语的需求的有效替代方法。总的来说,我们的工作揭示了当进行CPT进行语言适应时新能力如何产生的动态,并可作为未来设计更有效方法的基础。
更新时间: 2025-09-19 11:27:30
领域: cs.CL,cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 06:13 , Processed in 0.066846 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表