Vibe Checker: 将代码评估与人类偏好对齐

于红博 · 发表于 2025-10-9 16:30:04

摘要: 大型语言模型（LLMs）已经催生了“vibe coding”，用户利用LLMs生成并通过自然语言交互迭代地完善代码，直到通过他们的“vibe check”。 “vibe check”与现实世界的人类偏好相关，超越功能性：解决方案应该感觉正确，可读性强，保留意图，并保持正确性。然而，当前的代码评估仍然囿于pass@k，并且仅捕捉功能正确性，忽视用户常规应用的非功能性指令。在本文中，我们假设指令遵循是构成vibe check的缺失部分，代表了除功能正确性之外的编码中人类偏好。为了通过可测信号量化模型的代码指令遵循能力，我们提出了VeriCode，一个包含30个可验证代码指令以及相应确定性验证器的分类法。我们使用这个分类法来增强已建立的评估套件，形成了Vibe Checker，一个用于评估代码指令遵循和功能正确性的实验平台。在评估了31个领先的LLMs之后，我们发现即使最强大的模型也难以遵循多个指令，并呈现明显的功能退化。最重要的是，功能正确性和指令遵循的复合评分与人类偏好最相关，后者在现实世界编程任务中成为主要区分因素。我们的工作确定了vibe check的核心因素，为基准测试和开发更符合用户编码偏好的模型提供了具体路径。

更新时间: 2025-10-08 17:59:19

领域: cs.CL,cs.AI,cs.LG,cs.SE

下载: http://arxiv.org/abs/2510.07315v1

		自动登录	找回密码
密码			立即注册