|
摘要: 尽管现代transformers在规模和成功方面表现出色,但几乎普遍被训练为单一系统:优化会产生一组确定性参数,代表了关于数据的单一功能假设。受到智慧来自于多个头脑的启发,我们提出了Population Bayesian Transformers(B-Trans),它将标准的大型语言模型转换为贝叶斯Transformer模型,支持从一组预训练权重中抽样出多样化但连贯的模型实例。 B-Trans引入了一个受贝叶斯启发的后验代理,通过将标准化层中的偏置偏移视为带有高斯变分逼近的随机变量,诱导出模型行为的分布,而无需训练完整的贝叶斯神经网络。从这个代理中抽样产生了一组具有多样化行为的模型实例,同时保持了总体能力。为了在每一代中保持连贯性,我们在序列级别冻结抽样噪声,强制在标记之间实现时间一致性。B-Trans允许进行基于群体的决策,通过对抽样个体的预测进行聚合,显著增强了探索。在零样本生成、具有可验证奖励的强化学习(RLVR)以及没有显式标签的RL的实验中,B-Trans有效地利用了众多人的智慧,产生了更优越的语义多样性,同时相比确定性基线获得了更好的任务表现。 更新时间: 2025-12-31 18:56:02 领域: cs.LG,cs.CL
|