找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 41|回复: 0

利用视频语言模型增强主动式视频分析系统

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2025-11-2 22:07:16 | 显示全部楼层 |阅读模式
摘要: 由AI驱动的视频分析在各个领域变得越来越重要。然而,现有系统通常受限于特定的、预定义的任务,限制了它们在开放式分析场景中的适应性。最近出现的视觉语言模型(VLMs)作为变革性技术,为实现开放式视频理解、推理和分析提供了巨大潜力。然而,它们有限的上下文窗口在处理超长视频内容时存在挑战,在真实应用中普遍存在。为了解决这个问题,我们介绍了AVA,一个为开放式、高级视频分析设计的VLM驱动系统。AVA包括两个关键创新:(1)为了有效索引长或连续视频流,近实时构建事件知识图(EKGs),(2)利用EKGs处理复杂和多样化查询的主体检索生成机制。对公共基准LVBench和VideoMME-Long的全面评估表明,AVA实现了最先进的性能,分别达到62.3%和64.1%的准确率,明显超过现有的VLM和视频检索增强生成(RAG)系统。此外,为了评估超长和开放式视频场景中的视频分析,我们引入了一个新的基准,AVA-100。该基准包括8个视频,每个视频超过10小时的持续时间,以及120个手动注释的多样化和复杂的问题-答案对。在AVA-100上,AVA以75.8%的准确率实现了顶尖性能。AVA的源代码可在https://github.com/I-ESC/Project-Ava获得。AVA-100基准可在https://huggingface.co/datasets/iesc/Ava-100访问。
更新时间: 2025-10-30 03:12:42
领域: cs.CV,cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 16:59 , Processed in 0.090719 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表