视频模型是否准备好作为零样机推理者？与MME-CoF基准的实证研究

于红博 · 发表于 2025-11-2 18:20:19

摘要: 最近的视频生成模型可以生成高保真度、时间连贯的视频，表明它们可能编码了大量世界知识。除了逼真的合成，它们还展示了与视觉感知、建模和操纵相关的新兴行为。然而，一个重要的问题仍然存在：视频模型是否准备好在具有挑战性的视觉推理场景中充当零样本推理者？在这项工作中，我们进行了一项实证研究，全面调查了这个问题，重点关注领先和流行的Veo-3。我们评估了它在12个维度上的推理行为，包括空间、几何、物理、时间和体验逻辑，系统地描述了它的优势和失效模式。为了标准化这项研究，我们将评估数据整理成MME-CoF，这是一个紧凑的基准，可以深入和彻底评估Chain-of-Frame（CoF）推理。我们的研究结果显示，尽管当前的视频模型在短视野空间连贯性、细粒度基础和局部一致动态方面展示了有希望的推理模式，但它们在长视野因果推理、严格的几何约束和抽象逻辑方面仍然受限。总体而言，它们还不够可靠作为独立的零样本推理者，但作为专门推理模型旁边的鼓励性标志。项目页面：https://video-cof.github.io

更新时间: 2025-10-30 17:59:55

领域: cs.CV,cs.AI,cs.CL

下载: http://arxiv.org/abs/2510.26802v1

		自动登录	找回密码
密码			立即注册