|
摘要: 大型语言模型(LLMs)已经被广泛应用于起草电子邮件、会议总结和回答健康问题等任务。在这些用途中,用户可能需要分享私人信息(如健康记录、联系方式)。为了评估LLMs识别和删除此类私人信息的能力,先前的研究开发了具有真实场景的基准(例如ConfAIde、PrivacyLens)。使用这些基准,研究人员发现,在回答复杂任务时,LLMs有时会泄露保密信息(例如,在会议总结中泄露员工工资)。然而,这些评估依赖于LLMs(代理LLMs)来衡量对隐私规范的遵守,忽视了真实用户的感知。此外,先前的研究主要关注回答的隐私保护质量,而没有调查有用性的微妙差异。为了了解用户如何感知LLMs对隐私敏感场景的回应的隐私保护质量和有用性,我们进行了一项涉及94名参与者的用户研究,使用了来自PrivacyLens的90个场景。我们发现,在评估相同场景的相同回应时,用户在LLM回应的隐私保护质量和有用性上彼此之间的一致性较低。此外,我们发现五个代理LLMs之间存在高度一致性,而每个个体LLM与用户评估之间的相关性较低。这些结果表明,LLM回应的隐私和有用性通常是针对个人的,代理LLMs很难估计真实用户在隐私敏感场景中如何感知这些回应。我们的结果表明有必要进行以用户为中心的研究,以衡量LLMs在保护隐私的同时帮助用户的能力。此外,未来的研究可以探讨改进代理LLMs与用户之间对用户感知的隐私和效用更好估计的方法。 更新时间: 2025-10-23 16:38:26 领域: cs.CL,cs.AI,cs.HC
|