找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 35|回复: 0

LoCoT2V-Bench:长篇复杂文本到视频生成的基准测试

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2025-11-2 19:47:37 | 显示全部楼层 |阅读模式
摘要: 最近,文本到视频生成在制作短小、高质量视频方面取得了令人印象深刻的进展,但评估长格式输出仍然是一个主要挑战,特别是在处理复杂提示时。现有的基准大多依赖于简化的提示,并关注低级指标,忽视了与提示的细粒度对齐以及叙事连贯性和主题表达等抽象维度。为了解决这些缺口,我们提出了LoCoT2V-Bench,这是一个专门为在复杂输入条件下生成长视频(LVG)而设计的基准。基于各种真实世界的视频,LoCoT2V-Bench引入了一套包含场景转换和事件动态等元素的现实和复杂提示。此外,它构建了一个多维评估框架,包括我们新提出的度量标准,如事件级别对齐、细粒度时间一致性、内容清晰度以及人类期望实现程度(HERD),重点关注叙事流畅性、情感回应和角色发展等更抽象的属性。利用这一框架,我们对九种代表性的LVG模型进行了全面评估,发现当前方法在基本的视觉和时间方面表现良好,但在事件间一致性、细粒度对齐和高级主题遵循等方面存在困难。总的来说,LoCoT2V-Bench为评估长格式复杂文本到视频生成提供了一个全面可靠的平台,并强调了未来方法改进的关键方向。
更新时间: 2025-10-30 12:00:46
领域: cs.CV,cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 23:52 , Processed in 0.086615 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表