找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 15|回复: 0

BIRD-INTERACT: 通过动态交互的视角重新构想大语言模型的文本到SQL评估

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-10-9 16:37:46 | 显示全部楼层 |阅读模式
摘要: 大型语言模型(LLMs)在单轮文本到SQL任务中表现出色,但实际数据库应用主要需要多轮交互来处理模糊查询、执行错误和不断变化的用户需求。现有的多轮基准测试存在不足之处,将对话历史视为静态上下文或将评估限制在只读操作,未能反映生产级数据库助手的挑战。我们引入了BIRD-INTERACT,一个通过以下方式恢复现实感的基准测试:(1)综合交互环境,将每个数据库与分层知识库、元数据文件和基于功能的用户模拟器耦合,使模型能够在无人监督的情况下征询澄清、检索知识并从错误中恢复;(2)两种评估设置,包括预定义的会话协议(c-Interact)和一个开放式主体设置(a-Interact),其中模型自主决定何时查询用户模拟器或探索环境;(3)一个具有挑战性的任务套件,涵盖业务智能和运营用例的完整CRUD光谱,由可执行的测试用例保护。每个任务都包含模糊和后续子任务,需要动态交互。该套件包括BIRD-INTERACT-FULL(600个任务,最多11,796次交互)用于全面性能评估,以及BIRD-INTERACT-LITE(300个任务,带简化数据库)用于详细的行为分析和快速方法开发。我们的实证结果突显了BIRD-INTERACT的难度:GPT-5仅在c-Interact中完成了8.67%的任务,在a-Interact中完成了17.00%。通过记忆嫁接和交互测试时间缩放的分析验证了对复杂、动态文本到SQL任务的有效交互的重要性。
更新时间: 2025-10-08 14:39:59
领域: cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 08:42 , Processed in 0.071457 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表