找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 37|回复: 0

角度转向:通过在激活空间中旋转来控制行为

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2025-11-2 20:05:46 | 显示全部楼层 |阅读模式
摘要: 在保留大型语言模型一般能力的同时控制特定行为是安全可靠的人工智能部署的中心挑战。目前的调整方法,如向量相加和方向剔除,在由激活和特征方向定义的二维子空间中受限,使它们对选择的参数敏感,并可能由于激活空间中的意外交互影响无关特征。我们引入了一种新颖灵活的行为调节方法——角度驾驶,通过在固定的二维子空间内旋转激活来实现。通过将驾驶形式化为向目标行为方向旋转或远离的几何旋转,角度驾驶可以对拒绝和顺从等行为进行连续细粒度的控制。我们使用拒绝驾驶和情感驾驶作为用例来演示这种方法。此外,我们提出了自适应角度驾驶,这是一种选择性的变体,只旋转与目标特征对齐的激活,进一步增强了稳定性和一致性。角度驾驶将现有的加法和正交化技术泛化到统一的几何旋转框架下,简化了参数选择,并在更广泛的调整范围内保持了模型的稳定性。跨多个模型系列和规模的实验表明,角度驾驶实现了稳健的行为控制,同时保持了一般的语言建模性能,突显了与先前方法相比的灵活性、泛化性和稳健性。代码和文物可在https://github.com/lone17/angular-steering/上找到。
更新时间: 2025-10-30 08:23:35
领域: cs.LG,cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 16:59 , Processed in 0.079791 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表