|
摘要: 大型语言模型随着规模的扩大而改进,然而基于反馈的对齐仍然表现出与预期行为的系统偏差。受经济学和认知科学中的有限理性的启发,我们将判断视为资源有限和反馈作为受限通道。基于此,我们将环路建模为一个给定$S$的两阶级级联$U \to H \to Y$,其中认知能力为$C_{\text{cog}|S}$,平均总容量为$\bar{C}_{\text{tot}|S}$。我们的主要结果是一个能力耦合的对齐性能区间。它将一个与数据大小无关的由可分离码书混合证明的Fano下界与一个由PAC-Bayes上界配对,其KL项由相同通道通过$m \, \bar{C}_{\text{tot}|S}$进行控制。当使用规范可观察损失并且数据集来自相同混合时,PAC-Bayes界变为相同真实风险的上界。在这些匹配条件下,两个界限都受单一容量的控制。结果包括,随着价值复杂性和容量固定,仅添加标签不能跨越界限;在更复杂的目标上获得更低的风险需要随$\log M$增长的容量;一旦有用信号饱和容量,进一步优化倾向于适应通道规律,与谄媚和操纵奖励的报道一致。分析将对齐视为接口工程:测量和分配有限容量,管理任务复杂性,并决定信息的使用位置。 更新时间: 2025-09-19 12:38:30 领域: cs.LG,cs.AI,cs.IT,math.IT,stat.ML
|