一个用例特定的数据集，用于测量由LLM生成的文本中的负责绩效维度

于红博 · 发表于 2025-10-27 00:20:53

摘要: 目前评估大型语言模型（LLMs）的方法通常集中在高级任务，如文本生成，而不针对特定的人工智能应用。这种方法不足以评估LLMs的负责人工智能维度，如公平性，因为在一个应用中高度相关的受保护属性在另一个应用中可能不那么相关。在这项工作中，我们构建了一个由真实应用驱动的数据集（给定产品特征列表生成纯文本产品描述），参数化为与性别形容词和产品类别相交的公平属性，产生了一组丰富的标记提示。我们展示了如何使用数据来识别LLMs中的质量、真实性、安全性和公平性差距，提出了一个配备具体资源的LLM评估建议，以供研究社区使用。

更新时间: 2025-10-23 17:50:55

领域: cs.CL,cs.AI,I.2.7

下载: http://arxiv.org/abs/2510.20782v1

		自动登录	找回密码
密码			立即注册

一个用例特定的数据集，用于测量由LLM生成的文本中的负责绩效维度

浏览过的版块