找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 33|回复: 0

优化与评判:为LLM微调筛选高质量偏好链

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2025-11-2 18:45:58 | 显示全部楼层 |阅读模式
摘要: 大型语言模型(LLMs)通过基于偏好的精细调整展示了显著的进展,这在很大程度上取决于底层训练数据的质量。虽然人类反馈对于改善数据质量至关重要,但成本高昂且难以扩展。在本文中,我们介绍了Refine-n-Judge,这是一种自动化的迭代方法,利用单个LLM作为精炼者和评判者来增强数据集的质量。与现有的迭代精炼方法不同,Refine-n-Judge利用LLM生成精炼并明确评估每一次改进,确保每次迭代都能有意义地增强数据集,而无需额外的人工注释或单独的奖励模型。在每一步中,LLM精炼一个响应并判断这个精炼是否比上一个答案更好。这个过程持续进行,直到LLM更喜欢初始答案而不是精炼,表示没有进一步的改进。这产生了一系列不断提高质量的序列,适合用于精细调整的偏好标记响应。 我们跨越五个语料库展示了Refine-n-Judge在一系列公共数据集上的有效性,针对编码、数学和对话等任务。在Refine-n-Judge增强数据集上进行了精细调整的模型(Llama 3.1-8B和Llama 3.3-70B)在与通过GPT-4对原始数据集进行调整的模型进行比较时,LLM评审员偏好于超过74%。此外,我们报告了性能收益:在AlpacaEval和AlpacaEval 2.0上增加了+5%,在MT-Bench上增加了+19%。我们的结果表明Refine-n-Judge产生了高质量的数据集和可扩展的模型改进。
更新时间: 2025-10-30 16:32:34
领域: cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 23:52 , Processed in 0.082608 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表