ReliabilityRAG：基于RAG的网络搜索的有效且可靠的防御

于红博 · 发表于 2025-9-30 19:40:13

摘要: 检索增强生成（RAG）通过将其输出基于外部文档来增强大型语言模型。然而，这些系统仍然容易受到检索语料库的攻击，比如提示注入。基于RAG的搜索系统（例如Google的搜索AI概述）提供了一个有趣的环境来研究和防范这种威胁，因为防御算法可以从内置的可靠性信号（如文档排名）中受益，并且由于数十年来防止SEO而代表了对手的非LLM挑战。受此场景的启发，但不限于此，本文介绍了一种名为ReliabilityRAG的框架，用于显式利用检索文档的可靠性信息来增强对抗性鲁棒性。我们的第一个贡献采用图论视角来识别检索文档中的“一致多数”，以过滤出恶意文档。我们引入了一种基于在文档图上找到最大独立集（MIS）的新算法，其中边缘编码矛盾。我们的MIS变体明确优先考虑更可靠的文档，并在自然假设下提供了针对有界对抗性破坏的可证鲁棒性保证。鉴于对于大型检索集的精确MIS的计算成本，我们的第二个贡献是可扩展的加权采样和聚合框架。它明确利用可靠性信息，保留一些鲁棒性保证，同时高效处理许多文档。我们提供的实证结果显示，相比之前的方法，ReliabilityRAG在对抗性攻击方面提供了更高的鲁棒性，保持了高的良性准确性，并在长篇生成任务中表现出色，而之前的以鲁棒性为重点的方法则表现不佳。我们的工作是朝着更有效、可证明鲁棒的防御方向迈出的重要一步，以防止RAG中检索语料库的破坏。

更新时间: 2025-09-27 22:36:42

领域: cs.CR,cs.AI

下载: http://arxiv.org/abs/2509.23519v1

		自动登录	找回密码
密码			立即注册

ReliabilityRAG：基于RAG的网络搜索的有效且可靠的防御

浏览过的版块