找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 30|回复: 0

世界建模改善语言模型代理

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-22 20:08:49 | 显示全部楼层 |阅读模式
摘要: 在有状态环境中使用工具对于大型语言模型(LLMs)提出了独特的挑战,现有的依赖于在环境中进行重复试验的测试时间计算策略并不实际。我们提出了动态建模(DyMo),这是一种在后训练期间为LLMs增加状态预测能力的方法,同时还可以进行函数调用。这使得LLMs能够通过内部环境模型预测其行为的未来状态。在伯克利函数调用排行榜V2上,DyMo提高了成功率,并显著减少了幻觉。我们进一步将内部环境模型集成到自我验证采样(SVS)中,并表明这显著提高了通过k次试验的通过率,并允许模型拒绝不可靠的输出。DyMo和SVS共同极大地提升了LLMs在工具使用方面的效果和可靠性。我们相信这项工作为LLMs推理的可扩展规划RL方法开辟了一条道路,而无需不断查询神谕环境。
更新时间: 2025-09-19 03:54:30
领域: cs.AI,cs.LG

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 08:23 , Processed in 0.079270 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表