找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 38|回复: 0

视频模型是否准备好作为零样机推理者?与MME-CoF基准的实证研究

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2025-11-2 18:20:19 | 显示全部楼层 |阅读模式
摘要: 最近的视频生成模型可以生成高保真度、时间连贯的视频,表明它们可能编码了大量世界知识。除了逼真的合成,它们还展示了与视觉感知、建模和操纵相关的新兴行为。然而,一个重要的问题仍然存在:视频模型是否准备好在具有挑战性的视觉推理场景中充当零样本推理者?在这项工作中,我们进行了一项实证研究,全面调查了这个问题,重点关注领先和流行的Veo-3。我们评估了它在12个维度上的推理行为,包括空间、几何、物理、时间和体验逻辑,系统地描述了它的优势和失效模式。为了标准化这项研究,我们将评估数据整理成MME-CoF,这是一个紧凑的基准,可以深入和彻底评估Chain-of-Frame(CoF)推理。我们的研究结果显示,尽管当前的视频模型在短视野空间连贯性、细粒度基础和局部一致动态方面展示了有希望的推理模式,但它们在长视野因果推理、严格的几何约束和抽象逻辑方面仍然受限。总体而言,它们还不够可靠作为独立的零样本推理者,但作为专门推理模型旁边的鼓励性标志。项目页面:https://video-cof.github.io
更新时间: 2025-10-30 17:59:55
领域: cs.CV,cs.AI,cs.CL

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 23:52 , Processed in 0.075800 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表