利用视频语言模型增强主动式视频分析系统

于红博 · 发表于 2025-11-2 22:07:16

摘要: 由AI驱动的视频分析在各个领域变得越来越重要。然而，现有系统通常受限于特定的、预定义的任务，限制了它们在开放式分析场景中的适应性。最近出现的视觉语言模型（VLMs）作为变革性技术，为实现开放式视频理解、推理和分析提供了巨大潜力。然而，它们有限的上下文窗口在处理超长视频内容时存在挑战，在真实应用中普遍存在。为了解决这个问题，我们介绍了AVA，一个为开放式、高级视频分析设计的VLM驱动系统。AVA包括两个关键创新：（1）为了有效索引长或连续视频流，近实时构建事件知识图（EKGs），（2）利用EKGs处理复杂和多样化查询的主体检索生成机制。对公共基准LVBench和VideoMME-Long的全面评估表明，AVA实现了最先进的性能，分别达到62.3%和64.1%的准确率，明显超过现有的VLM和视频检索增强生成（RAG）系统。此外，为了评估超长和开放式视频场景中的视频分析，我们引入了一个新的基准，AVA-100。该基准包括8个视频，每个视频超过10小时的持续时间，以及120个手动注释的多样化和复杂的问题-答案对。在AVA-100上，AVA以75.8%的准确率实现了顶尖性能。AVA的源代码可在https://github.com/I-ESC/Project-Ava获得。AVA-100基准可在https://huggingface.co/datasets/iesc/Ava-100访问。

更新时间: 2025-10-30 03:12:42

领域: cs.CV,cs.AI

下载: http://arxiv.org/abs/2505.00254v4

		自动登录	找回密码
密码			立即注册