密集视频理解与门控残差标记化

于红博 · 发表于 2025-9-21 15:09:34

摘要: 高时间分辨率对于捕捉视频理解中的细微细节至关重要。然而，当前的视频大型语言模型（VLLMs）和基准大多依赖于低帧率采样，如均匀采样或关键帧选择，丢弃了密集的时间信息。这种妥协避免了对每一帧进行令牌化的高成本，否则会导致冗余计算和随着视频长度增加而呈线性增长的令牌。虽然这种权衡对于变化缓慢的内容有效，但对于像讲座理解这样的任务却失败了，其中信息几乎出现在每一帧中，并需要精确的时间对齐。为了解决这一差距，我们引入了密集视频理解（DVU），通过减少令牌化时间和令牌开销，实现了高FPS视频理解。现有的基准测试也存在局限性，因为它们的问答对重点放在粗糙的内容变化上。因此，我们提出了DIVE（密集信息视频评估），这是第一个专为密集时间推理而设计的基准测试。为了使DVU实用，我们提出了门控残差令牌化（GRT），一个两阶段框架：（1）运动补偿内部门控令牌化使用像素级运动估计来跳过令牌化过程中的静态区域，实现了令牌数量和计算的次线性增长。（2）语义-场景内部令牌化合并在一个场景内跨静态区域的令牌，进一步减少了冗余，同时保留了动态语义。在DIVE上的实验表明，GRT胜过更大的VLLM基线，并随FPS的增加而呈现积极的规模化特性。这些结果强调了密集时间信息的重要性，并证明了GRT实现了高效、可扩展的高FPS视频理解。

更新时间: 2025-09-18 13:17:10

领域: cs.CV,cs.AI,cs.CL,cs.LG,68T45, 68T07, 68T05, 68T10, 68T50, 68T09, 68U10, 68P20, 94A08, 94A34, 62H30, 62H35,I.2.10; I.2.6; I.2.7; I.5.1; I.5.2; I.5.3; I.5.4; I.4.8; I.4.9; I.4.2; H.3.1; H.3.3; H.3.4; H.5.1; H.5.2; H.2.8

下载: http://arxiv.org/abs/2509.14199v2

		自动登录	找回密码
密码			立即注册