LoCoT2V-Bench：长篇复杂文本到视频生成的基准测试

于红博 · 发表于 2025-11-2 19:47:37

摘要: 最近，文本到视频生成在制作短小、高质量视频方面取得了令人印象深刻的进展，但评估长格式输出仍然是一个主要挑战，特别是在处理复杂提示时。现有的基准大多依赖于简化的提示，并关注低级指标，忽视了与提示的细粒度对齐以及叙事连贯性和主题表达等抽象维度。为了解决这些缺口，我们提出了LoCoT2V-Bench，这是一个专门为在复杂输入条件下生成长视频（LVG）而设计的基准。基于各种真实世界的视频，LoCoT2V-Bench引入了一套包含场景转换和事件动态等元素的现实和复杂提示。此外，它构建了一个多维评估框架，包括我们新提出的度量标准，如事件级别对齐、细粒度时间一致性、内容清晰度以及人类期望实现程度（HERD），重点关注叙事流畅性、情感回应和角色发展等更抽象的属性。利用这一框架，我们对九种代表性的LVG模型进行了全面评估，发现当前方法在基本的视觉和时间方面表现良好，但在事件间一致性、细粒度对齐和高级主题遵循等方面存在困难。总的来说，LoCoT2V-Bench为评估长格式复杂文本到视频生成提供了一个全面可靠的平台，并强调了未来方法改进的关键方向。

更新时间: 2025-10-30 12:00:46

领域: cs.CV,cs.AI

下载: http://arxiv.org/abs/2510.26412v1

		自动登录	找回密码
密码			立即注册