|
摘要: 在高风险领域(如法律或医学)评估长篇答案仍然是一个基本挑战。标准指标如BLEU和ROUGE无法捕捉语义正确性,而当前基于LLM的评估器通常将答案质量的微妙方面简化为单一的得分。我们引入了DeCE,一个分解的LLM评估框架,它将精度(事实准确性和相关性)和召回(覆盖所需概念)分开,使用从黄金答案要求自动提取的具体实例标准。DeCE是模型不可知且领域通用的,不需要预定义的分类法或手工制作的评分标准。我们将DeCE实例化,以评估不同LLM在涉及多司法推理和引用基础的现实法律问答任务中的表现。与传统指标(r=0.12)、点对点LLM评分(r=0.35)和现代多维评估器(r=0.48)相比,DeCE与专家判断的相关性显著增强(r=0.78)。它还揭示了可解释的权衡:通用模型偏向于召回,而专业化模型偏向于精度。重要的是,仅有11.95%的LLM生成的标准需要专家修订,突显了DeCE的可扩展性。DeCE在专家领域提供了一个可解释和可操作的LLM评估框架。 更新时间: 2025-09-19 15:36:02 领域: cs.CL,cs.AI
|