找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 40|回复: 0

多样性作为一种奖励:在领域未确定数据混合中微调LLMs

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2025-11-2 20:02:51 | 显示全部楼层 |阅读模式
摘要: 细调大型语言模型(LLMs)使用多样化数据集对于增强它们在各个领域的整体性能至关重要。在实际场景中,基于数据组成混合比例建模的现有方法通常在处理领域标签缺失、不精确或非规范化的数据时面临困难,而基于数据选择的方法通常遇到平衡多领域性能的困难。为了解决这些挑战,在这项工作中,我们通过经验构建对比数据池和理论推导来调查数据多样性在增强LLMs整体能力中的作用。借鉴所得的见解,我们提出了一种新方法,为LLM赋予了双重身份:一个输出模型,根据多样性奖励对数据进行认知探测和选择,以及一个输入模型,用选定的数据进行调整。大量实验表明,所提出的方法在应用于各种先进的LLMs时,显著提升了对领域未确定数据和一系列基础下游任务的性能。我们发布了我们的代码,并希望这项研究可以启发对数据多样性的理解,并推进基于反馈的数据-模型共同设计,以提升LLMs的性能。
更新时间: 2025-10-30 09:16:49
领域: cs.CL,cs.AI,cs.LG

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 16:04 , Processed in 0.094506 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表