一个用于高效MLLM评估的多对一访谈范式

于红博 · 发表于 2025-9-21 15:14:14

摘要: 多模态大型语言模型（MLLMs）的快速进展推动了大量基准的创建。然而，传统的全覆盖问答评估存在高度冗余和低效率的问题。受人类面试过程的启发，我们提出了一种多对一面试范式，用于高效评估MLLM。我们的框架包括（i）一个两阶段面试策略，包括预面试和正式面试阶段，（ii）动态调整面试者权重以确保公平性，以及（iii）选择问题难度级别的自适应机制。在不同基准测试中的实验证明，提出的范式与全覆盖结果的相关性明显高于随机抽样，PLCC和SRCC的改进达到了17.6%和16.7%，同时减少了所需问题的数量。这些发现表明，提出的范式为大规模MLLM基准测试提供了可靠且高效的替代方案。

更新时间: 2025-09-18 12:07:40

领域: cs.CL,cs.AI

下载: http://arxiv.org/abs/2509.14886v1

		自动登录	找回密码
密码			立即注册