MaskCaptioner：学习在视频中联合分割和描述对象轨迹

于红博 · 发表于 2025-11-2 18:48:17

摘要: 密集视频对象字幕（DVOC）是在视频中同时检测、跟踪和字幕化对象轨迹的任务，需要理解时空细节并用自然语言描述它们的能力。由于任务的复杂性和手动注释的高成本，先前的方法采用了不连贯的训练策略，可能导致性能不佳。为了避免这个问题，我们提出利用最先进的VLM生成关于时空定位实体的字幕。通过在LVIS和LV-VIS数据集上扩展我们的合成字幕（LVISCap和LV-VISCap），我们训练了MaskCaptioner，一个端到端模型，能够同时检测、分割、跟踪和字幕化对象轨迹。此外，通过在LVISCap和LV-VISCap上进行预训练，MaskCaptioner在三个现有基准测试中实现了最先进的DVOC结果，包括VidSTG、VLN和BenSMOT。数据集和代码可在https://www.gabriel.fiastre.fr/maskcaptioner/上获得。

更新时间: 2025-10-30 15:39:25

领域: cs.CV,cs.AI,cs.LG

下载: http://arxiv.org/abs/2510.14904v2

		自动登录	找回密码
密码			立即注册