摘要: 由AI驱动的视频分析在各个领域变得越来越重要。然而,现有系统通常受限于特定的、预定义的任务,限制了它们在开放式分析场景中的适应性。最近出现的视觉语言模型(VLMs)作为变革性技术,为实现开放式视频理解、推理和分析提供了巨大潜力。然而,它们有限的上下文窗口在处理超长视频内容时存在挑战,在真实应用中普遍存在。为了解决这个问题,我们介绍了AVA,一个为开放式、高级视频分析设计的VLM驱动系统。AVA包括两个关键创新:(1)为了有效索引长或连续视频流,近实时构建事件知识图(EKGs),(2)利用EKGs处理复杂和多样化查询的主体检索生成机制。对公共基准LVBench和VideoMME-Long的全面评估表明,AVA实现了最先进的性能,分别达到62.3%和64.1%的准确率,明显超过现有的VLM和视频检索增强生成(RAG)系统。此外,为了评估超长和开放式视频场景中的视频分析,我们引入了一个新的基准,AVA-100。该基准包括8个视频,每个视频超过10小时的持续时间,以及120个手动注释的多样化和复杂的问题-答案对。在AVA-100上,AVA以75.8%的准确率实现了顶尖性能。AVA的源代码可在https://github.com/I-ESC/Project-Ava获得。AVA-100基准可在https://huggingface.co/datasets/iesc/Ava-100访问。 更新时间: 2025-10-30 03:12:42 领域: cs.CV,cs.AI
|