超越越狱：审计LLM代理的上下文隐私

于红博 · 发表于 2025-9-30 19:40:36

摘要: LLM代理已经开始出现作为个人助手、客户服务机器人和临床助手。虽然这些应用程序提供了实质性的运营优势，但它们也需要持续访问敏感数据，这增加了未经授权披露的可能性。此外，这些披露不仅仅是明确的披露，还为逐渐操纵或侧信道信息泄漏留下了开放的途径。本研究提出了一个用于对话隐私的审计框架，该框架量化了代理对这些风险的敏感性。所提出的对话操纵隐私泄漏（CMPL）框架旨在对执行严格隐私指令的代理进行压力测试，以应对迭代探测策略。与其仅关注单一披露事件或纯粹的明确泄漏不同，CMPL通过模拟现实中的多轮交互来系统地揭示潜在的漏洞。我们对不同领域、数据模态和安全配置进行的评估表明，审计框架能够揭示不受现有单一回合防御所阻止的隐私风险，以及对泄漏的时间动态、自适应对手采取的策略以及对敏感目标的对手信念的演变进行了深入的纵向研究。除了将CMPL作为一种诊断工具引入外，本文还提供了（1）基于可量化风险指标的审计程序和（2）用于评估不同代理实现的对话隐私的开放基准。

更新时间: 2025-09-27 20:28:18

领域: cs.CR,cs.AI,cs.CL

下载: http://arxiv.org/abs/2506.10171v3

		自动登录	找回密码
密码			立即注册

超越越狱：审计LLM代理的上下文隐私

浏览过的版块