找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 24|回复: 0

超越线性转向:语言模型统一多属性控制

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-22 19:57:26 | 显示全部楼层 |阅读模式
摘要: 在推理时间控制大型语言模型(LLMs)中的多个行为属性是一个具有挑战性的问题,原因是属性之间的干扰以及线性转向方法的局限性,这些方法假设激活空间中的行为是可加的,并且需要每个属性的调整。我们引入了K-Steering,这是一种统一而灵活的方法,它在隐藏激活上训练一个单一的非线性多标签分类器,并通过梯度在推理时间计算干预方向。这避免了线性假设,消除了存储和调整单独属性向量的需要,并允许在无需重新训练的情况下动态组合行为。为了评估我们的方法,我们提出了两个新的基准,ToneBank和DebateMix,旨在实现组合行为控制。通过3个模型系列的经验结果,由基于激活的分类器和基于LLM的评判者验证,证明了K-Steering在准确控制多种行为方面优于强基线。
更新时间: 2025-09-19 10:58:16
领域: cs.LG,cs.AI,cs.CL

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 06:17 , Processed in 0.080606 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表