|
摘要: 我们研究了大型语言模型(LLMs)是否能够预测它们在特定任务中是否会成功,并且它们的预测是否会随着它们在多步任务中的进展而改善。我们还研究了LLMs是否能够从上下文经验中学习,以便在失败成本高昂的情况下更好地决定是否继续进行任务。我们测试的所有LLMs都表现出自信过度,但大多数都能以高于随机水平的区分力预测自己的成功。我们发现,更新和更大的LLMs通常并没有更强的区分力,尽管克劳德模型显示出这样的趋势。在多步主动任务中,一些前沿LLMs的自信过度随着它们在任务中的进展而恶化,而推理LLMs的表现与非推理LLMs相当或更差。在失败的上下文经验中,一些但不是所有的LLMs减少了他们的自信过度,从而导致决策的显著改善,而其他LLMs则没有。有趣的是,所有LLMs的决策在其估计的成功概率下大致合理,然而它们过度乐观的估计导致了糟糕的决策。这些结果表明,当前的LLM代理由于缺乏对自身能力的认识而受到限制。我们讨论了LLMs对于人工智能滥用和错位风险的认识的影响。 更新时间: 2025-12-31 06:14:46 领域: cs.CL,cs.AI
|