|
摘要: 大型语言模型(LLMs)在一般任务中表现出色,但在经济学和心理学等需要深入、原则性理解的专业领域中表现不佳。为了解决这一问题,我们引入了ACER(自动课程增强方案),将通用模型转化为领域专家,而不损害其广泛的能力。ACER首先通过生成一个主题的目录,然后创建由布鲁姆的分类法指导的问题-答案(QA)对来合成一个全面的教材风格课程。这确保了系统性的主题覆盖和逐渐增加的难度。生成的合成语料库用于连续的预训练,采用交织的课程表,将学习与内容和认知维度对齐。 使用Llama 3.2(1B和3B)进行的实验显示,在专业MMLU子集中取得了显著的收益。在基线难以应对的挑战性领域,例如微观经济学,ACER将准确度提高了5个百分点。在所有目标领域中,我们观察到一致的宏平均改进为3个百分点。值得注意的是,ACER不仅可以防止灾难性遗忘,还促进了正面的跨领域知识转移,将在非目标领域的表现提高了0.7个百分点。除了MMLU,ACER还在知识密集型基准测试如ARC和GPQA上提高了超过2个绝对点的表现,同时在一般推理任务上保持稳定的表现。我们的结果表明,ACER为缩小LLMs中关键领域差距提供了一种可扩展且有效的方法。 更新时间: 2025-10-30 10:43:40 领域: cs.CL,cs.AI
|