“说“或许”之术：在VLMs中进行不确定性基准测试的一种保持整体的透镜”

于红博 · 发表于 2025-9-21 15:19:57

摘要: 视觉语言模型（VLMs）在复杂视觉理解以及科学和推理任务中取得了显著进展。尽管性能基准测试推动了我们对这些能力的理解，但不确定性量化这一关键维度受到了不足的关注。因此，与之前侧重于有限设置的符合预测研究不同，我们进行了一项全面的不确定性基准测试研究，评估了16个最先进的VLMs（开源和闭源）在6个多模态数据集上的表现，使用了3种不同的评分函数。我们的研究结果表明，更大的模型一致表现出更好的不确定性量化；知道更多的模型也更清楚自己不知道的东西。更确定的模型实现了更高的准确性，而数学和推理任务相比其他领域导致所有模型的不确定性表现较差。这项工作为多模态系统中可靠的不确定性评估奠定了基础。

更新时间: 2025-09-18 10:10:19

领域: cs.AI,cs.CV

下载: http://arxiv.org/abs/2509.13379v2

		自动登录	找回密码
密码			立即注册

“说“或许”之术：在VLMs中进行不确定性基准测试的一种保持整体的透镜”

浏览过的版块