|
摘要: 人类反馈可以以不可预测和不可取的方式改变语言模型,因为从业者缺乏对反馈数据编码的清晰理解。虽然先前的研究研究了对某些属性(例如长度或阿谀)的偏好,但在不预先指定假设的情况下自动提取相关特征仍具有挑战性。我们引入了"What's In My Human Feedback?"(WIMHF),这是一种使用稀疏自动编码器解释反馈数据的方法。WIMHF既表征了数据集能够测量的偏好,也表征了标注者实际表达的偏好。在7个数据集中,WIMHF识别出少量可解释的人类特征,这些特征占黑匣模型实现的大部分偏好预测信号。这些特征揭示了人类偏好的广泛多样性,以及数据集级上下文的作用:例如,Reddit用户倾向于非正式和笑话,而HH-RLHF和PRISM中的标注者则不喜欢它们。WIMHF还展示了潜在的不安全偏好,例如LMArena用户倾向于投票反对拒绝,往往支持有毒内容。学习到的特征可以实现有效的数据整理:在Arena重新标记有害示例可以获得较大的安全收益(+37%),而不会损害一般性能。它们还允许细粒度的个性化:在Community Alignment数据集上,我们学习了标注者对主观特征的权重,从而改善了偏好预测。WIMHF为从业者提供了一种以人为中心的分析方法,以更好地理解和使用偏好数据。 更新时间: 2025-10-30 07:25:10 领域: cs.CL,cs.AI
|