|
摘要: 大型语言模型(LLM)正在催化科学和工程领域自主AI研究代理的发展。我们提出了FM Agent,这是一个新颖且通用的多代理框架,利用LLM基于推理和大规模进化搜索的协同组合,来应对复杂的现实世界挑战。FM Agent的核心集成了几项关键创新:1) 一个包含专家指导的冷启动初始化阶段,2) 一种用于迭代优化的新颖进化采样策略,3) 结合正确性、有效性和LLM监督反馈的领域特定评估器,以及4) 基于Ray构建的分布式、异步执行基础设施。展示了广泛的适用性,我们的系统已在各种领域进行了评估,包括运筹学、机器学习、GPU内核优化和经典数学问题。FM Agent在不需要人类解释或调整的情况下自主达到了最新成果,如在ALE-Bench上达到了1976.3(+5.2\%),在MLE-Bench上达到了43.56\%(+4.0pp),在KernelBench上实现了高达20倍的加速,并在几个经典数学问题上建立了新的最新成果。除了学术基准测试之外,FM Agent对大规模企业研发工作流程和基础科学研究都显示出很大的潜力,它可以加速创新,自动化复杂的发现过程,并以更广泛的社会影响交付重大的工程和科学进步。 更新时间: 2025-10-30 04:57:57 领域: cs.AI
|