MCPAgentBench：用于评估LLM代理MCP工具使用的真实世界任务基准测试

于红博 · 发表于 2026-1-4 23:23:28

摘要: 大型语言模型（LLMs）越来越多地作为自主代理，它们通过模型上下文协议（MCP）利用外部工具被认为是未来的发展趋势。当前的MCP评估集存在诸如依赖外部MCP服务和缺乏难度意识等问题。为了解决这些限制，我们提出了MCPAgentBench，这是一个基于现实世界MCP定义的基准，旨在评估代理的工具使用能力。我们构建了一个包含真实任务和模拟MCP工具的数据集。评估使用动态沙盒环境，向代理展示包含干扰因素的候选工具列表，从而测试它们的工具选择和区分能力。此外，我们引入了全面的指标来衡量任务完成率和执行效率。在各种最新的主流大型语言模型上进行的实验显示，在处理复杂的多步工具调用时存在显著的性能差异。所有代码都在Github上开源。

更新时间: 2025-12-31 02:09:48

领域: cs.AI

下载: http://arxiv.org/abs/2512.24565v1

		自动登录	找回密码
密码			立即注册

MCPAgentBench：用于评估LLM代理MCP工具使用的真实世界任务基准测试

浏览过的版块