超越合成基准测试：在真实世界的类级代码生成中评估LLM性能

于红博 · 发表于 2025-11-2 21:58:39

摘要: 大型语言模型（LLMs）已经推动了函数级别的代码生成，但它们在生成正确的类级别实现方面在真实软件项目中的能力仍然不够清楚。本文介绍了一个新颖的基准，从开源存储库中派生出来，包括真实世界的类被划分为可见和不可见的分区，以评估在实际条件下的泛化能力。评估考察了多个LLMs在不同输入规范、检索增强配置和文档完整性水平下的表现。结果显示出明显的性能差距：LLMs在已建立的合成基准上的正确性达到84%至89%，但在真实世界类任务中只有25%至34%，熟悉和新颖代码库之间的差异微乎其微。全面的文档字符串在功能准确性上带来了1%至3%的适度增长，尽管统计显著性很少。检索增强生成证明在部分文档情况下效果最好，通过提供具体的实现模式，从规范中缺失的，将正确性提高了4%至7%。错误剖析确定AttributeError、TypeError和AssertionError为主要的失败模式（84%的情况），合成测试过分强调断言问题，而真实世界场景突出显示类型和属性不匹配。检索增强减少了逻辑缺陷，但可能引入依赖冲突。基准和分析揭示了当前LLMs在类级工程方面的关键限制，为增强上下文建模、文档策略和检索集成提供了可操作的洞见，以增强生产代码辅助工具。

更新时间: 2025-10-30 04:30:23

领域: cs.SE,cs.AI,cs.LG

下载: http://arxiv.org/abs/2510.26130v1

		自动登录	找回密码
密码			立即注册