摘要: 在保留大型语言模型一般能力的同时控制特定行为是安全可靠的人工智能部署的中心挑战。目前的调整方法,如向量相加和方向剔除,在由激活和特征方向定义的二维子空间中受限,使它们对选择的参数敏感,并可能由于激活空间中的意外交互影响无关特征。我们引入了一种新颖灵活的行为调节方法——角度驾驶,通过在固定的二维子空间内旋转激活来实现。通过将驾驶形式化为向目标行为方向旋转或远离的几何旋转,角度驾驶可以对拒绝和顺从等行为进行连续细粒度的控制。我们使用拒绝驾驶和情感驾驶作为用例来演示这种方法。此外,我们提出了自适应角度驾驶,这是一种选择性的变体,只旋转与目标特征对齐的激活,进一步增强了稳定性和一致性。角度驾驶将现有的加法和正交化技术泛化到统一的几何旋转框架下,简化了参数选择,并在更广泛的调整范围内保持了模型的稳定性。跨多个模型系列和规模的实验表明,角度驾驶实现了稳健的行为控制,同时保持了一般的语言建模性能,突显了与先前方法相比的灵活性、泛化性和稳健性。代码和文物可在https://github.com/lone17/angular-steering/上找到。 更新时间: 2025-10-30 08:23:35 领域: cs.LG,cs.AI
|