BIRD-INTERACT: 通过动态交互的视角重新构想大语言模型的文本到SQL评估

于红博 · 发表于 2025-10-9 16:37:46

摘要: 大型语言模型（LLMs）在单轮文本到SQL任务中表现出色，但实际数据库应用主要需要多轮交互来处理模糊查询、执行错误和不断变化的用户需求。现有的多轮基准测试存在不足之处，将对话历史视为静态上下文或将评估限制在只读操作，未能反映生产级数据库助手的挑战。我们引入了BIRD-INTERACT，一个通过以下方式恢复现实感的基准测试：（1）综合交互环境，将每个数据库与分层知识库、元数据文件和基于功能的用户模拟器耦合，使模型能够在无人监督的情况下征询澄清、检索知识并从错误中恢复；（2）两种评估设置，包括预定义的会话协议（c-Interact）和一个开放式主体设置（a-Interact），其中模型自主决定何时查询用户模拟器或探索环境；（3）一个具有挑战性的任务套件，涵盖业务智能和运营用例的完整CRUD光谱，由可执行的测试用例保护。每个任务都包含模糊和后续子任务，需要动态交互。该套件包括BIRD-INTERACT-FULL（600个任务，最多11,796次交互）用于全面性能评估，以及BIRD-INTERACT-LITE（300个任务，带简化数据库）用于详细的行为分析和快速方法开发。我们的实证结果突显了BIRD-INTERACT的难度：GPT-5仅在c-Interact中完成了8.67％的任务，在a-Interact中完成了17.00％。通过记忆嫁接和交互测试时间缩放的分析验证了对复杂、动态文本到SQL任务的有效交互的重要性。

更新时间: 2025-10-08 14:39:59

领域: cs.AI

下载: http://arxiv.org/abs/2510.05318v2

		自动登录	找回密码
密码			立即注册