找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 21|回复: 0

A.S.E: 一个用于评估AI生成代码安全性的存储库级基准测试

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-21 15:00:33 | 显示全部楼层 |阅读模式
摘要: 随着大型语言模型(LLMs)在软件工程中的广泛采用,有必要对其生成的代码进行严格的安全评估。然而,现有的基准往往缺乏与实际AI辅助编程场景相关性,使它们无法评估与生产环境中AI生成代码相关的实际安全风险。为了填补这一空白,我们引入了A.S.E(AI代码生成安全评估),这是一个仓库级评估基准,旨在密切模拟真实世界的AI编程任务,提供了一个全面可靠的框架,用于评估AI生成代码的安全性。我们在A.S.E上对领先的LLMs进行评估,发现了一些关键发现。特别是,当前的LLMs仍然在安全编码方面存在困难。仓库级场景中的复杂性对LLMs构成挑战,这些LLMs通常在片段级任务上表现良好。此外,更大的推理预算不一定会导致更好的代码生成。这些观察结果为当前AI代码生成的状态提供了宝贵的见解,并帮助开发人员确定最适合实际任务的模型。它们还为改进LLMs以在实际应用中生成安全高效代码奠定了基础。
更新时间: 2025-09-18 15:18:10
领域: cs.SE,cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-11-2 07:17 , Processed in 0.071956 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表