FM药剂

于红博 · 发表于 2025-11-2 21:52:18

摘要: 大型语言模型(LLM)正在催化科学和工程领域自主AI研究代理的发展。我们提出了FM Agent，这是一个新颖且通用的多代理框架，利用LLM基于推理和大规模进化搜索的协同组合，来应对复杂的现实世界挑战。FM Agent的核心集成了几项关键创新：1) 一个包含专家指导的冷启动初始化阶段，2) 一种用于迭代优化的新颖进化采样策略，3) 结合正确性、有效性和LLM监督反馈的领域特定评估器，以及4) 基于Ray构建的分布式、异步执行基础设施。展示了广泛的适用性，我们的系统已在各种领域进行了评估，包括运筹学、机器学习、GPU内核优化和经典数学问题。FM Agent在不需要人类解释或调整的情况下自主达到了最新成果，如在ALE-Bench上达到了1976.3(+5.2\%)，在MLE-Bench上达到了43.56\%(+4.0pp)，在KernelBench上实现了高达20倍的加速，并在几个经典数学问题上建立了新的最新成果。除了学术基准测试之外，FM Agent对大规模企业研发工作流程和基础科学研究都显示出很大的潜力，它可以加速创新，自动化复杂的发现过程，并以更广泛的社会影响交付重大的工程和科学进步。

更新时间: 2025-10-30 04:57:57

领域: cs.AI

下载: http://arxiv.org/abs/2510.26144v1

		自动登录	找回密码
密码			立即注册