|
摘要: 尽管大型语言模型(LLMs)取得了显著成功,但评估它们的输出质量仍然是一个关键挑战。现有的作品通常利用强大的LLM作为评价器,逐对比较LLMs的响应,然而这种单一评估器方法容易受到循环偏好的影响,即输出A优于B,B优于C,但C又优于A,导致评估结果矛盾。为解决这一问题,我们引入了PGED(Preference Graph Ensemble and Denoise),这是一种新颖的方法,利用多个基于模型的评估器构建偏好图,然后对这些图进行整合和去噪,以获得非循环、非矛盾的评估结果。我们为我们的框架提供了理论保证,证明其在恢复地面真实偏好结构方面的有效性。对十个基准数据集的广泛实验显示,PGED在三个应用方面表现出卓越优势:1)模型排名评估,2)测试时缩放的响应选择,以及3)模型微调的数据选择。值得注意的是,PGED结合了小型LLM评估器(如Llama3-8B,Mistral-7B,Qwen2-7B),以优于强大的评估器(如Qwen2-72B)的表现,展示了其在增强评估可靠性和提高模型性能方面的有效性。 更新时间: 2025-10-30 00:34:12 领域: cs.CL,cs.AI,cs.LG
|