找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 35|回复: 0

UNO-Bench:一个用于探索单模态和全模态组合规律的统一基准测试平台

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2025-11-2 19:59:40 | 显示全部楼层 |阅读模式
摘要: Multimodal大语言模型已经从单模态理解向统一视觉、音频和语言模态发展,统称为omni模型。然而,单模态和omni模态之间的相关性仍不清楚,需要全面评估以推动omni模型的智能演进。在这项工作中,我们引入了一个新颖、高质量和统一的Omni模型基准,UNO-Bench。这个基准旨在有效评估统一的能力分类下的UNi-modal和Omni-modal能力,涵盖44种任务类型和5种模态组合。它包括1250个人为策划的omni-modal样本,98%的跨模态可解决性,以及2480个增强的单模态样本。人类生成的数据集非常适合于现实世界场景,特别是在中国背景下,而自动压缩的数据集提供了90%的速度增加,并在18个公共基准测试中保持了98%的一致性。除了传统的多选题,我们提出了一种创新的多步开放式问题格式,以评估复杂的推理能力。一个通用的评分模型被纳入,支持6种问题类型的自动评估,准确率达到95%。实验结果显示omni-modal和uni-modal性能之间的组合定律,以及omni-modal能力在弱模型上表现为瓶颈效应,而在强模型上展现出协同促进效应。
更新时间: 2025-10-30 10:00:05
领域: cs.CL,cs.AI,I.2.7

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-13 00:49 , Processed in 0.083963 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表