找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 27|回复: 0

通过多模态LLM学习人类感知的AI生成视频中的伪造性

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-30 19:45:35 | 显示全部楼层 |阅读模式
摘要: 人类能否识别由人工智能生成的(虚假)视频并提供具体理由? 虽然视频生成模型发展迅速,但一个关键维度——人类是否能够在生成的视频中检测到deepfake痕迹,即通过时空基础视觉特征揭示视频是由机器生成的——却大多被忽视。我们引入DeeptraceReward,这是第一个精细、空间和时间感知的基准,用于注释人类感知的虚假痕迹以获得视频生成奖励。该数据集包括3.3K个高质量生成视频中的4.3K个详细注释。每个注释提供自然语言解释,指出包含感知痕迹的边界框区域,并标记精确的开始和结束时间戳。我们将这些注释整合为9个主要类别的deepfake痕迹,这些痕迹导致人类将视频识别为由人工智能生成,并训练多模态语言模型(LMs)作为奖励模型,以模仿人类判断和定位。在DeeptraceReward上,我们的7B奖励模型在虚假线索识别、定位和解释方面平均优于GPT-5 34.7%。有趣的是,我们观察到一个一致的难度梯度:二元虚假对真实分类比精细的deepfake痕迹检测要容易得多;在后者中,从自然语言解释(最容易)到空间定位再到时间标记(最难),性能逐渐下降。通过突出人类感知的deepfake痕迹,DeeptraceReward为具有社会意识和可信度的视频生成提供了严格的测试平台和训练信号。
更新时间: 2025-09-26 17:59:54
领域: cs.CV,cs.AI,cs.CL

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 11:00 , Processed in 0.083341 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表