找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 15|回复: 0

超越点评分数:基于分解准则的LLM回应评估

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-22 19:38:54 | 显示全部楼层 |阅读模式
摘要: 在高风险领域(如法律或医学)评估长篇答案仍然是一个基本挑战。标准指标如BLEU和ROUGE无法捕捉语义正确性,而当前基于LLM的评估器通常将答案质量的微妙方面简化为单一的得分。我们引入了DeCE,一个分解的LLM评估框架,它将精度(事实准确性和相关性)和召回(覆盖所需概念)分开,使用从黄金答案要求自动提取的具体实例标准。DeCE是模型不可知且领域通用的,不需要预定义的分类法或手工制作的评分标准。我们将DeCE实例化,以评估不同LLM在涉及多司法推理和引用基础的现实法律问答任务中的表现。与传统指标(r=0.12)、点对点LLM评分(r=0.35)和现代多维评估器(r=0.48)相比,DeCE与专家判断的相关性显著增强(r=0.78)。它还揭示了可解释的权衡:通用模型偏向于召回,而专业化模型偏向于精度。重要的是,仅有11.95%的LLM生成的标准需要专家修订,突显了DeCE的可扩展性。DeCE在专家领域提供了一个可解释和可操作的LLM评估框架。
更新时间: 2025-09-19 15:36:02
领域: cs.CL,cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-11-1 15:14 , Processed in 0.075070 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表