找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 26|回复: 0

Watson:LLM动力代理推理的认知可观测框架

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-22 19:44:32 | 显示全部楼层 |阅读模式
摘要: 大型语言模型(LLMs)越来越多地被整合到自主系统中,产生了一类新的软件,称为Agentware,其中LLM动力代理在领域中执行复杂的、开放式的任务,如软件工程、客户服务和数据分析。然而,它们高度的自主性和不透明的推理过程为传统的软件可观测性方法带来了重大挑战。为了解决这个问题,我们引入了认知可观测性的概念 - 即恢复和检查代理决策背后的隐含推理的能力。我们提出了Watson,一个观察快速思考的LLM代理的推理过程的通用框架,在不改变它们行为的情况下。Watson使用提示归因技术反推理推理轨迹。我们在MMLU基准测试、AutoCodeRover和OpenHands代理在SWE-bench-lite数据集上的手动调试和自动更正场景中评估了Watson。在静态和动态设置中,Watson提供了可操作的推理见解,并支持有针对性的干预,展示了其在提高Agentware系统透明度和可靠性方面的实用性。
更新时间: 2025-09-19 13:47:46
领域: cs.AI,cs.SE

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 11:00 , Processed in 0.106026 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表