人工智能与人类的互补性：增强监管的目标

于红博 · 发表于 2025-11-2 18:54:43

摘要: 人类反馈对于调整AI系统到人类价值观至关重要。随着AI能力的提高和AI被用于解决更具挑战性的任务，验证质量和安全性变得越来越具挑战性。本文探讨了如何利用AI来提高人类监督的质量。我们关注一个对人类来说已经具有挑战性的重要安全问题：验证AI输出的事实。我们发现，结合基于AI评分和人类评分的AI评分者信心胜过单独依赖于其中任何一个。给予人类一个AI事实验证助手进一步提高了他们的准确性，但是援助的类型很重要。显示AI解释、信心和标签会导致过度依赖，但仅显示搜索结果和证据会培养出更适当的信任。这些结果对于放大监督有着重要意义——即如何将人类和AI结合起来监督AI系统，即使它们超越了人类专家的表现。

更新时间: 2025-10-30 14:11:52

领域: cs.AI,cs.HC

下载: http://arxiv.org/abs/2510.26518v1

		自动登录	找回密码
密码			立即注册