SafeSearch：为基于LLM的搜索代理的安全性进行自动化的红队测试

于红博 · 发表于 2025-9-30 19:38:12

摘要: 搜索代理将LLM连接到互联网，使其能够访问更广泛和更新的信息。然而，不可靠的搜索结果也可能对最终用户造成安全威胁，从而建立了新的威胁面。在这项工作中，我们进行了两项野外实验，以展示低质量搜索结果的普遍性以及它们误导代理行为的潜力。为了应对这一威胁，我们引入了一种自动的红队框架，该框架系统化、可扩展且成本效益高，可以对搜索代理进行轻量级和无害的安全评估。基于这个框架，我们构建了SafeSearch基准，其中包括300个测试用例，涵盖了五类风险（例如，错误信息和间接提示注入）。使用这个基准，我们评估了三种代表性的搜索代理支架，在7个专有和8个开源后端LLMs上进行了搜索工作流、工具调用和深入研究等方面的覆盖。我们的结果显示了基于LLM的搜索代理存在重大漏洞：当暴露于不可靠的网站时，GPT-4.1-mini在搜索工作流设置下的最高ASR达到90.5%。此外，我们的分析突显了常见防御实践的有限有效性，如提醒提示。这强调了我们框架在推动更安全的代理开发的透明度方面的价值。我们的代码库和测试用例可公开获取：https://github.com/jianshuod/SafeSearch。

更新时间: 2025-09-28 07:05:17

领域: cs.AI,cs.CL,cs.CR

下载: http://arxiv.org/abs/2509.23694v1

		自动登录	找回密码
密码			立即注册

SafeSearch：为基于LLM的搜索代理的安全性进行自动化的红队测试

浏览过的版块