|
摘要: 大型推理模型(LRMs)的“黑匣子”特性在可靠性和透明性方面存在关键限制,引发了围绕“思维错觉”和代理系统中状态幻觉挑战的辩论。作为回应,我们介绍了STAR-XAI协议(Socratic,Transparent,Agentic,Reasoning - for eXplainable Artificial Intelligence),这是一种新颖的操作方法,用于训练和操作经过验证可靠的人工智能代理。我们的方法将人-AI互动重新构想为由明确、不断发展的符号规则书(Consciousness Transfer Package - CTP)和一套完整性协议(包括消除内部状态损坏的状态锁定校验和)管理的结构化苏格拉底对话。通过对复杂战略游戏“Caps i Caps”的详尽案例研究,我们证明了这种“清晰盒子”框架将不透明的LRM转变为一名纪律严明的战略家。该代理不仅展示了复杂战术的出现,如长期规划,而且通过在行动之前证明其意图,实现了ante-hoc透明度。至关重要的是,它通过识别和纠正其自己的监督批准计划中的缺陷,展示了第二阶代理能力,实现了经验证明的100%可靠状态跟踪,并实现了“零设计幻觉”。因此,STAR-XAI协议为构建不仅表现优异而且具有固有可审计性、可信赖性和可靠性的AI代理提供了一个实用的路径。 更新时间: 2025-09-26 17:49:26 领域: cs.AI,cs.LO
|