找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 41|回复: 0

我人类反馈中的内容是什么?学习可解释的偏好数据描述

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2025-11-2 21:43:34 | 显示全部楼层 |阅读模式
摘要: 人类反馈可以以不可预测和不可取的方式改变语言模型,因为从业者缺乏对反馈数据编码的清晰理解。虽然先前的研究研究了对某些属性(例如长度或阿谀)的偏好,但在不预先指定假设的情况下自动提取相关特征仍具有挑战性。我们引入了"What's In My Human Feedback?"(WIMHF),这是一种使用稀疏自动编码器解释反馈数据的方法。WIMHF既表征了数据集能够测量的偏好,也表征了标注者实际表达的偏好。在7个数据集中,WIMHF识别出少量可解释的人类特征,这些特征占黑匣模型实现的大部分偏好预测信号。这些特征揭示了人类偏好的广泛多样性,以及数据集级上下文的作用:例如,Reddit用户倾向于非正式和笑话,而HH-RLHF和PRISM中的标注者则不喜欢它们。WIMHF还展示了潜在的不安全偏好,例如LMArena用户倾向于投票反对拒绝,往往支持有毒内容。学习到的特征可以实现有效的数据整理:在Arena重新标记有害示例可以获得较大的安全收益(+37%),而不会损害一般性能。它们还允许细粒度的个性化:在Community Alignment数据集上,我们学习了标注者对主观特征的权重,从而改善了偏好预测。WIMHF为从业者提供了一种以人为中心的分析方法,以更好地理解和使用偏好数据。
更新时间: 2025-10-30 07:25:10
领域: cs.CL,cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 17:01 , Processed in 0.098152 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表