我人类反馈中的内容是什么？学习可解释的偏好数据描述

于红博 · 发表于 2025-11-2 21:43:34

摘要: 人类反馈可以以不可预测和不可取的方式改变语言模型，因为从业者缺乏对反馈数据编码的清晰理解。虽然先前的研究研究了对某些属性（例如长度或阿谀）的偏好，但在不预先指定假设的情况下自动提取相关特征仍具有挑战性。我们引入了"What's In My Human Feedback?"（WIMHF），这是一种使用稀疏自动编码器解释反馈数据的方法。WIMHF既表征了数据集能够测量的偏好，也表征了标注者实际表达的偏好。在7个数据集中，WIMHF识别出少量可解释的人类特征，这些特征占黑匣模型实现的大部分偏好预测信号。这些特征揭示了人类偏好的广泛多样性，以及数据集级上下文的作用：例如，Reddit用户倾向于非正式和笑话，而HH-RLHF和PRISM中的标注者则不喜欢它们。WIMHF还展示了潜在的不安全偏好，例如LMArena用户倾向于投票反对拒绝，往往支持有毒内容。学习到的特征可以实现有效的数据整理：在Arena重新标记有害示例可以获得较大的安全收益（+37%），而不会损害一般性能。它们还允许细粒度的个性化：在Community Alignment数据集上，我们学习了标注者对主观特征的权重，从而改善了偏好预测。WIMHF为从业者提供了一种以人为中心的分析方法，以更好地理解和使用偏好数据。

更新时间: 2025-10-30 07:25:10

领域: cs.CL,cs.AI

下载: http://arxiv.org/abs/2510.26202v1

		自动登录	找回密码
密码			立即注册