填充响应增强零-shot检测AI生成的图像

于红博 · 发表于 2025-10-9 16:33:41

摘要: 随着人工智能模型生成越来越逼真的图像，对潜在滥用的担忧日益加剧，也凸显了可靠检测的必要性。传统的监督式检测方法依赖于大量策划的数据集用于训练，并且往往无法泛化到新颖的、超领域的图像生成器。作为替代方案，我们探索了预训练的视觉-语言模型（VLMs）用于零样本检测人工智能生成的图像。我们评估了VLM在三个不同基准测试中的表现，包括由16种不同的最先进图像生成器生成的合成人脸、物体和动物图像。尽管现成的VLM在这些数据集上表现不佳，但我们发现通过简单的响应预填充可以有效引导它们的推理，这一方法被称为预填充引导思维（PGT）。特别是，通过用任务对齐的短语“让我们检查风格和综合工艺”预填充VLM的响应，可以将三种广泛使用的开源VLM的宏F1分数提高高达24%。

更新时间: 2025-10-08 16:59:43

领域: cs.LG,cs.AI,cs.CL

下载: http://arxiv.org/abs/2506.11031v3

		自动登录	找回密码
密码			立即注册