找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 27|回复: 0

ChronoForge-RL:通过强化学习进行时间顺序锻造,以提升视频理解

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-22 20:00:19 | 显示全部楼层 |阅读模式
摘要: 目前最先进的视频理解方法通常面临两个关键挑战:(1) 在处理密集视频内容时,处理每一帧的计算不可行;(2) 通过朴素的均匀采样策略难以识别语义重要帧。在本文中,我们提出了一种新颖的视频理解框架,称为ChronoForge-RL,它结合了时间顶点蒸馏(TAD)和关键帧感知组相对策略优化(KF-GRPO)来解决这些问题。具体而言,我们引入了一个可微分的关键帧选择机制,通过一个三阶段过程系统地识别语义拐点,从而提高计算效率同时保留时间信息。然后,我们提出了两个特殊模块来实现有效的时间推理:首先,TAD利用变异得分、拐点检测和优先蒸馏来选择最具信息量的帧。其次,我们引入KF-GRPO,它实现了一种对比学习范式,具有增强显著性的奖励机制,明确激励模型利用帧内容和时间关系。最后,我们提出的ChronoForge-RL 在VideoMME 上达到了69.1% ,在LVBench 上达到了 52.7%,与基线方法相比,明显超越先前的方法,同时使我们的7B 参数模型的性能达到了与72B 参数替代方案可比的水平。
更新时间: 2025-09-19 09:27:24
领域: cs.CV,cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 06:16 , Processed in 0.069651 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表