|
摘要: 大型语言模型(Code LLMs)以其令人印象深刻的能力在编程领域开启了一个新时代。然而,最近的研究揭示了它们在推理运行时行为和理解程序实际功能方面存在关键限制,这对它们的训练后和实际部署提出了重大挑战。具体而言,Code LLMs遇到两个主要问题:(1)在推理程序执行行为方面缺乏熟练,因为它们在运行时往往难以解释程序实际执行的内容,以及(2)语义信息(如执行跟踪)的不一致和分散表示,这阻碍了它们有效推理和泛化的能力。这些挑战凸显了需要更系统的方法来增强Code LLMs的推理能力。为了解决这些问题,我们引入了一个通用框架,支持将语义信息(如执行跟踪)集成到与代码任务相关的提示中,并进行了一项全面研究,以探讨语义信息在相应增强Code LLMs推理能力中的作用。具体而言,我们专注于研究基于跟踪的语义信息在提升Code LLMs的监督微调(SFT)和后期推断中的有用性。实验结果出人意料地与以前的研究不一致,并表明语义信息对SFT和Code LLM的测试时间扩展的用处有限。 更新时间: 2025-09-18 11:44:09 领域: cs.SE,cs.AI
|