|
摘要: 主动塑造需要LLMs在现实环境中通过采取行动、观察结果并迭代改进工件来进行多次操作。尽管其重要性,开源社区缺乏一个原则性的、端到端的生态系统来简化代理开发。我们介绍了主动学习生态系统(ALE),这是一个优化代理LLMs生产流程的基础设施。ALE包括三个组成部分:ROLL,一个用于权重优化的后训练框架;ROCK,一个用于生成轨迹的沙盒环境管理器;以及iFlow CLI,一个用于高效上下文工程的代理框架。我们发布了ROME(ROME显然是一个主动模型),这是一个由ALE支撑并在超过一百万条轨迹上训练的开源代理。我们的方法包括用于合成复杂行为的数据组合协议以及一种新颖的策略优化算法,基于互动的策略对齐(IPA),它将学分分配给语义交互块而不是单个标记,以提高长期训练的稳定性。在实证上,我们在一个结构化环境中评估了ROME,并介绍了Terminal Bench Pro,一个具有改进的规模和污染控制的基准。ROME在SWE-bench Verified和Terminal Bench等基准测试中表现强劲,证明了ALE基础设施的有效性。 更新时间: 2025-12-31 14:03:39 领域: cs.AI,cs.CL
|