用户对LLM在处理隐私敏感场景中的隐私和帮助性的看法

于红博 · 发表于 3 天前

摘要: 大型语言模型（LLMs）已经被广泛应用于起草电子邮件、会议总结和回答健康问题等任务。在这些用途中，用户可能需要分享私人信息（如健康记录、联系方式）。为了评估LLMs识别和删除此类私人信息的能力，先前的研究开发了具有真实场景的基准（例如ConfAIde、PrivacyLens）。使用这些基准，研究人员发现，在回答复杂任务时，LLMs有时会泄露保密信息（例如，在会议总结中泄露员工工资）。然而，这些评估依赖于LLMs（代理LLMs）来衡量对隐私规范的遵守，忽视了真实用户的感知。此外，先前的研究主要关注回答的隐私保护质量，而没有调查有用性的微妙差异。为了了解用户如何感知LLMs对隐私敏感场景的回应的隐私保护质量和有用性，我们进行了一项涉及94名参与者的用户研究，使用了来自PrivacyLens的90个场景。我们发现，在评估相同场景的相同回应时，用户在LLM回应的隐私保护质量和有用性上彼此之间的一致性较低。此外，我们发现五个代理LLMs之间存在高度一致性，而每个个体LLM与用户评估之间的相关性较低。这些结果表明，LLM回应的隐私和有用性通常是针对个人的，代理LLMs很难估计真实用户在隐私敏感场景中如何感知这些回应。我们的结果表明有必要进行以用户为中心的研究，以衡量LLMs在保护隐私的同时帮助用户的能力。此外，未来的研究可以探讨改进代理LLMs与用户之间对用户感知的隐私和效用更好估计的方法。

更新时间: 2025-10-23 16:38:26

领域: cs.CL,cs.AI,cs.HC

下载: http://arxiv.org/abs/2510.20721v1

		自动登录	找回密码
密码			立即注册

用户对LLM在处理隐私敏感场景中的隐私和帮助性的看法

浏览过的版块