找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 4|回复: 0

AMAP 代理计划技术报告

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2026-1-4 22:57:23 | 显示全部楼层 |阅读模式
摘要: 我们提出了STAgent,这是一个专为时空理解定制的主动大型语言模型,旨在解决诸如受限兴趣点发现和行程规划等复杂任务。STAgent是一个专门设计的模型,能够与时空场景中的十种不同工具进行交互,使其能够在复杂推理过程中探索、验证和完善中间步骤。值得注意的是,STAgent有效地保留了其一般能力。我们通过三个关键贡献赋予STAgent这些能力:(1)一个稳定的工具环境,支持超过十种领域特定工具,实现异步展开和训练;(2)一个分层数据策划框架,像在大海捞针一样识别高质量数据,通过1:10,000的筛选比例策划高质量查询,强调多样性和难度;(3)一个级联训练方案,从一个作为守护者的种子SFT阶段开始,测量查询难度,然后是在具有高确定性查询上微调的第二个SFT阶段,以及利用低确定性数据的最终RL阶段。通过使用Qwen3-30B-A3B初始化建立强大的SFT基础,并利用样本难度的见解,STAgent在TravelBench上表现出有希望的性能,同时在一系列通用基准测试中保持其一般能力,从而证明了我们提议的主动模型的有效性。
更新时间: 2025-12-31 16:39:09
领域: cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 17:00 , Processed in 0.089542 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表