|
摘要: 目前最先进的视频理解方法通常面临两个关键挑战:(1) 在处理密集视频内容时,处理每一帧的计算不可行;(2) 通过朴素的均匀采样策略难以识别语义重要帧。在本文中,我们提出了一种新颖的视频理解框架,称为ChronoForge-RL,它结合了时间顶点蒸馏(TAD)和关键帧感知组相对策略优化(KF-GRPO)来解决这些问题。具体而言,我们引入了一个可微分的关键帧选择机制,通过一个三阶段过程系统地识别语义拐点,从而提高计算效率同时保留时间信息。然后,我们提出了两个特殊模块来实现有效的时间推理:首先,TAD利用变异得分、拐点检测和优先蒸馏来选择最具信息量的帧。其次,我们引入KF-GRPO,它实现了一种对比学习范式,具有增强显著性的奖励机制,明确激励模型利用帧内容和时间关系。最后,我们提出的ChronoForge-RL 在VideoMME 上达到了69.1% ,在LVBench 上达到了 52.7%,与基线方法相比,明显超越先前的方法,同时使我们的7B 参数模型的性能达到了与72B 参数替代方案可比的水平。 更新时间: 2025-09-19 09:27:24 领域: cs.CV,cs.AI
|