UNO-Bench：一个用于探索单模态和全模态组合规律的统一基准测试平台

于红博 · 发表于 2025-11-2 19:59:40

摘要: Multimodal大语言模型已经从单模态理解向统一视觉、音频和语言模态发展，统称为omni模型。然而，单模态和omni模态之间的相关性仍不清楚，需要全面评估以推动omni模型的智能演进。在这项工作中，我们引入了一个新颖、高质量和统一的Omni模型基准，UNO-Bench。这个基准旨在有效评估统一的能力分类下的UNi-modal和Omni-modal能力，涵盖44种任务类型和5种模态组合。它包括1250个人为策划的omni-modal样本，98%的跨模态可解决性，以及2480个增强的单模态样本。人类生成的数据集非常适合于现实世界场景，特别是在中国背景下，而自动压缩的数据集提供了90%的速度增加，并在18个公共基准测试中保持了98%的一致性。除了传统的多选题，我们提出了一种创新的多步开放式问题格式，以评估复杂的推理能力。一个通用的评分模型被纳入，支持6种问题类型的自动评估，准确率达到95%。实验结果显示omni-modal和uni-modal性能之间的组合定律，以及omni-modal能力在弱模型上表现为瓶颈效应，而在强模型上展现出协同促进效应。

更新时间: 2025-10-30 10:00:05

领域: cs.CL,cs.AI,I.2.7

下载: http://arxiv.org/abs/2510.18915v3

		自动登录	找回密码
密码			立即注册