|
摘要: 最近,文本到视频生成在制作短小、高质量视频方面取得了令人印象深刻的进展,但评估长格式输出仍然是一个主要挑战,特别是在处理复杂提示时。现有的基准大多依赖于简化的提示,并关注低级指标,忽视了与提示的细粒度对齐以及叙事连贯性和主题表达等抽象维度。为了解决这些缺口,我们提出了LoCoT2V-Bench,这是一个专门为在复杂输入条件下生成长视频(LVG)而设计的基准。基于各种真实世界的视频,LoCoT2V-Bench引入了一套包含场景转换和事件动态等元素的现实和复杂提示。此外,它构建了一个多维评估框架,包括我们新提出的度量标准,如事件级别对齐、细粒度时间一致性、内容清晰度以及人类期望实现程度(HERD),重点关注叙事流畅性、情感回应和角色发展等更抽象的属性。利用这一框架,我们对九种代表性的LVG模型进行了全面评估,发现当前方法在基本的视觉和时间方面表现良好,但在事件间一致性、细粒度对齐和高级主题遵循等方面存在困难。总的来说,LoCoT2V-Bench为评估长格式复杂文本到视频生成提供了一个全面可靠的平台,并强调了未来方法改进的关键方向。 更新时间: 2025-10-30 12:00:46 领域: cs.CV,cs.AI
|