找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 36|回复: 0

MaskCaptioner:学习在视频中联合分割和描述对象轨迹

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2025-11-2 18:48:17 | 显示全部楼层 |阅读模式
摘要: 密集视频对象字幕(DVOC)是在视频中同时检测、跟踪和字幕化对象轨迹的任务,需要理解时空细节并用自然语言描述它们的能力。由于任务的复杂性和手动注释的高成本,先前的方法采用了不连贯的训练策略,可能导致性能不佳。为了避免这个问题,我们提出利用最先进的VLM生成关于时空定位实体的字幕。通过在LVIS和LV-VIS数据集上扩展我们的合成字幕(LVISCap和LV-VISCap),我们训练了MaskCaptioner,一个端到端模型,能够同时检测、分割、跟踪和字幕化对象轨迹。此外,通过在LVISCap和LV-VISCap上进行预训练,MaskCaptioner在三个现有基准测试中实现了最先进的DVOC结果,包括VidSTG、VLN和BenSMOT。数据集和代码可在https://www.gabriel.fiastre.fr/maskcaptioner/上获得。
更新时间: 2025-10-30 15:39:25
领域: cs.CV,cs.AI,cs.LG

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 18:46 , Processed in 0.074349 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表