摘要: 本文介绍了MovieCORE,这是一个新颖的视频问答(VQA)数据集,旨在深入探索电影内容的认知理解。与现有着重于表面理解的数据集不同,MovieCORE强调引发第二系统思维的问题,同时保持与视频材料的特定性。我们提出了一种创新的主体性头脑风暴方法,利用多个大型语言模型(LLMs)作为思维代理生成和完善高质量的问题-答案对。为了评估数据集的质量,我们开发了一套评估深度、引发思考潜力和语法复杂性的认知测试。我们还提出了一套全面的评估方案,用于评估VQA模型在更深层次认知任务上的性能。为了解决现有视频语言模型(VLMs)的局限性,我们引入了一种主体性增强模块,Agentic Choice Enhancement(ACE),通过提高模型推理能力使其在训练后提高了25%。我们的工作有助于推动AI系统中对电影理解的发展,并为当前VQA模型在面对更具挑战性、微妙的有关电影内容的问题时的能力和限制提供宝贵见解。我们的项目页面、数据集和代码可在https://joslefaure.github.io/assets/html/moviecore.html找到。 更新时间: 2025-09-18 12:56:38 领域: cs.CL,cs.AI,cs.CV
|