摘要: 搜索代理将LLM连接到互联网,使其能够访问更广泛和更新的信息。然而,不可靠的搜索结果也可能对最终用户造成安全威胁,从而建立了新的威胁面。在这项工作中,我们进行了两项野外实验,以展示低质量搜索结果的普遍性以及它们误导代理行为的潜力。为了应对这一威胁,我们引入了一种自动的红队框架,该框架系统化、可扩展且成本效益高,可以对搜索代理进行轻量级和无害的安全评估。基于这个框架,我们构建了SafeSearch基准,其中包括300个测试用例,涵盖了五类风险(例如,错误信息和间接提示注入)。使用这个基准,我们评估了三种代表性的搜索代理支架,在7个专有和8个开源后端LLMs上进行了搜索工作流、工具调用和深入研究等方面的覆盖。我们的结果显示了基于LLM的搜索代理存在重大漏洞:当暴露于不可靠的网站时,GPT-4.1-mini在搜索工作流设置下的最高ASR达到90.5%。此外,我们的分析突显了常见防御实践的有限有效性,如提醒提示。这强调了我们框架在推动更安全的代理开发的透明度方面的价值。我们的代码库和测试用例可公开获取:https://github.com/jianshuod/SafeSearch。 更新时间: 2025-09-28 07:05:17 领域: cs.AI,cs.CL,cs.CR
|