超越点评分数：基于分解准则的LLM回应评估

于红博 · 发表于 2025-9-22 19:38:54

摘要: 在高风险领域（如法律或医学）评估长篇答案仍然是一个基本挑战。标准指标如BLEU和ROUGE无法捕捉语义正确性，而当前基于LLM的评估器通常将答案质量的微妙方面简化为单一的得分。我们引入了DeCE，一个分解的LLM评估框架，它将精度（事实准确性和相关性）和召回（覆盖所需概念）分开，使用从黄金答案要求自动提取的具体实例标准。DeCE是模型不可知且领域通用的，不需要预定义的分类法或手工制作的评分标准。我们将DeCE实例化，以评估不同LLM在涉及多司法推理和引用基础的现实法律问答任务中的表现。与传统指标（r=0.12）、点对点LLM评分（r=0.35）和现代多维评估器（r=0.48）相比，DeCE与专家判断的相关性显著增强（r=0.78）。它还揭示了可解释的权衡：通用模型偏向于召回，而专业化模型偏向于精度。重要的是，仅有11.95%的LLM生成的标准需要专家修订，突显了DeCE的可扩展性。DeCE在专家领域提供了一个可解释和可操作的LLM评估框架。

更新时间: 2025-09-19 15:36:02

领域: cs.CL,cs.AI

下载: http://arxiv.org/abs/2509.16093v1

		自动登录	找回密码
密码			立即注册

超越点评分数：基于分解准则的LLM回应评估

浏览过的版块