找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 50|回复: 0

SIRAJ:通过精炼的结构化推理为LLM代理实现多样化高效的红队行动

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2025-11-2 22:26:58 | 显示全部楼层 |阅读模式
摘要: LLM代理的规划和调用工具的能力使它们暴露于新的安全风险中,这使得发现漏洞并确保其安全部署至关重要,因此需要一个全面的红队系统。我们提出SIRAJ:一个针对任意黑匣子LLM代理的通用红队框架。我们采用一个动态的两步过程,从代理定义开始生成涵盖各种风险结果、工具使用轨迹和风险来源的多样化种子测试用例。然后,基于先前尝试的执行轨迹,迭代构建和完善基于模型的对抗攻击。为了优化红队成本,我们提出了一种模型蒸馏方法,利用教师模型推理的结构化形式来训练同样有效的较小模型。在各种评估代理设置中,我们的种子测试用例生成方法使风险结果和工具调用轨迹的覆盖率提高了2-2.5倍。我们精炼的8B红队模型提高了攻击成功率100%,超过了671B的Deepseek-R1模型。我们的割裂和分析验证了迭代框架、结构化推理以及我们红队模型的泛化的有效性。
更新时间: 2025-10-30 00:32:58
领域: cs.CR,cs.AI,cs.CL

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 23:11 , Processed in 0.075639 second(s), 20 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表