|
摘要: Multimodal大语言模型已经从单模态理解向统一视觉、音频和语言模态发展,统称为omni模型。然而,单模态和omni模态之间的相关性仍不清楚,需要全面评估以推动omni模型的智能演进。在这项工作中,我们引入了一个新颖、高质量和统一的Omni模型基准,UNO-Bench。这个基准旨在有效评估统一的能力分类下的UNi-modal和Omni-modal能力,涵盖44种任务类型和5种模态组合。它包括1250个人为策划的omni-modal样本,98%的跨模态可解决性,以及2480个增强的单模态样本。人类生成的数据集非常适合于现实世界场景,特别是在中国背景下,而自动压缩的数据集提供了90%的速度增加,并在18个公共基准测试中保持了98%的一致性。除了传统的多选题,我们提出了一种创新的多步开放式问题格式,以评估复杂的推理能力。一个通用的评分模型被纳入,支持6种问题类型的自动评估,准确率达到95%。实验结果显示omni-modal和uni-modal性能之间的组合定律,以及omni-modal能力在弱模型上表现为瓶颈效应,而在强模型上展现出协同促进效应。 更新时间: 2025-10-30 10:00:05 领域: cs.CL,cs.AI,I.2.7
|