找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 13|回复: 0

Vibe Checker: 将代码评估与人类偏好对齐

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-10-9 16:30:04 | 显示全部楼层 |阅读模式
摘要: 大型语言模型(LLMs)已经催生了“vibe coding”,用户利用LLMs生成并通过自然语言交互迭代地完善代码,直到通过他们的“vibe check”。 “vibe check”与现实世界的人类偏好相关,超越功能性:解决方案应该感觉正确,可读性强,保留意图,并保持正确性。然而,当前的代码评估仍然囿于pass@k,并且仅捕捉功能正确性,忽视用户常规应用的非功能性指令。在本文中,我们假设指令遵循是构成vibe check的缺失部分,代表了除功能正确性之外的编码中人类偏好。为了通过可测信号量化模型的代码指令遵循能力,我们提出了VeriCode,一个包含30个可验证代码指令以及相应确定性验证器的分类法。我们使用这个分类法来增强已建立的评估套件,形成了Vibe Checker,一个用于评估代码指令遵循和功能正确性的实验平台。在评估了31个领先的LLMs之后,我们发现即使最强大的模型也难以遵循多个指令,并呈现明显的功能退化。最重要的是,功能正确性和指令遵循的复合评分与人类偏好最相关,后者在现实世界编程任务中成为主要区分因素。我们的工作确定了vibe check的核心因素,为基准测试和开发更符合用户编码偏好的模型提供了具体路径。
更新时间: 2025-10-08 17:59:19
领域: cs.CL,cs.AI,cs.LG,cs.SE

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 06:13 , Processed in 0.069704 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表