找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 4|回复: 0

一个用例特定的数据集,用于测量由LLM生成的文本中的负责绩效维度

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 3 天前 | 显示全部楼层 |阅读模式
摘要: 目前评估大型语言模型(LLMs)的方法通常集中在高级任务,如文本生成,而不针对特定的人工智能应用。这种方法不足以评估LLMs的负责人工智能维度,如公平性,因为在一个应用中高度相关的受保护属性在另一个应用中可能不那么相关。在这项工作中,我们构建了一个由真实应用驱动的数据集(给定产品特征列表生成纯文本产品描述),参数化为与性别形容词和产品类别相交的公平属性,产生了一组丰富的标记提示。我们展示了如何使用数据来识别LLMs中的质量、真实性、安全性和公平性差距,提出了一个配备具体资源的LLM评估建议,以供研究社区使用。
更新时间: 2025-10-23 17:50:55
领域: cs.CL,cs.AI,I.2.7

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 11:02 , Processed in 0.080636 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表