找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 2|回复: 0

迭代部署改善LLMs的规划能力

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2026-1-4 22:59:04 | 显示全部楼层 |阅读模式
摘要: 我们展示了迭代部署大型语言模型(LLMs),每个模型在由先前模型部署的用户精心策划的数据上进行微调,可以显著改变结果模型的性质。通过在各种规划领域测试这种机制,我们观察到规划技能的显著改进,后续模型展现出新发现更长计划的紧急概括能力。然后,我们提供了理论分析,表明迭代部署有效地实现了强化学习(RL)训练在外部循环中(即不作为有意的模型训练的一部分),具有隐式奖励函数。与RL的联系有两个重要含义:首先,对于AI安全领域,由重复部署隐含的奖励函数并没有明确定义,可能对未来模型部署的性质产生意想不到的影响。其次,这里突出的机制可以被视为一种替代的训练方案,依赖于数据策划而不是明确的奖励。
更新时间: 2025-12-31 16:03:14
领域: cs.AI,cs.CL,cs.LG

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 15:42 , Processed in 0.075339 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表