找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 37|回复: 0

在预对数空间中通过基于采样的最优控制对LLMs进行测试时间对齐

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2025-11-2 20:09:35 | 显示全部楼层 |阅读模式
摘要: 大语言模型(LLMs)的测试时间对齐引起了人们的关注,因为微调LLMs需要高昂的计算成本。在本文中,我们提出了一种名为自适应重要性抽样预对数(AISP)的新的测试时间对齐方法,基于基于抽样的模型预测控制和随机控制输入。AISP将高斯扰动应用于预对数,即倒数第二层的输出,以最大化与扰动均值相关的期望奖励。我们证明通过使用采样奖励进行重要性抽样可以获得最优均值。与基于奖励的其他测试时间对齐方法相比,AISP在奖励方面优于最佳n次采样,同时在所使用的样本数量上表现出更高的奖励。
更新时间: 2025-10-30 07:52:14
领域: cs.LG,cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 17:01 , Processed in 0.088854 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表