找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 1|回复: 0

让它流动:在摇滚音乐中进行主动塑造,在开放主动学习生态系统中构建ROME模型

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2026-1-4 23:01:16 | 显示全部楼层 |阅读模式
摘要: 主动塑造需要LLMs在现实环境中通过采取行动、观察结果并迭代改进工件来进行多次操作。尽管其重要性,开源社区缺乏一个原则性的、端到端的生态系统来简化代理开发。我们介绍了主动学习生态系统(ALE),这是一个优化代理LLMs生产流程的基础设施。ALE包括三个组成部分:ROLL,一个用于权重优化的后训练框架;ROCK,一个用于生成轨迹的沙盒环境管理器;以及iFlow CLI,一个用于高效上下文工程的代理框架。我们发布了ROME(ROME显然是一个主动模型),这是一个由ALE支撑并在超过一百万条轨迹上训练的开源代理。我们的方法包括用于合成复杂行为的数据组合协议以及一种新颖的策略优化算法,基于互动的策略对齐(IPA),它将学分分配给语义交互块而不是单个标记,以提高长期训练的稳定性。在实证上,我们在一个结构化环境中评估了ROME,并介绍了Terminal Bench Pro,一个具有改进的规模和污染控制的基准。ROME在SWE-bench Verified和Terminal Bench等基准测试中表现强劲,证明了ALE基础设施的有效性。
更新时间: 2025-12-31 14:03:39
领域: cs.AI,cs.CL

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 15:41 , Processed in 0.080596 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表