找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 16|回复: 0

“说“或许”之术:在VLMs中进行不确定性基准测试的一种保持整体的透镜”

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-21 15:19:57 | 显示全部楼层 |阅读模式
摘要: 视觉语言模型(VLMs)在复杂视觉理解以及科学和推理任务中取得了显著进展。尽管性能基准测试推动了我们对这些能力的理解,但不确定性量化这一关键维度受到了不足的关注。因此,与之前侧重于有限设置的符合预测研究不同,我们进行了一项全面的不确定性基准测试研究,评估了16个最先进的VLMs(开源和闭源)在6个多模态数据集上的表现,使用了3种不同的评分函数。我们的研究结果表明,更大的模型一致表现出更好的不确定性量化;知道更多的模型也更清楚自己不知道的东西。更确定的模型实现了更高的准确性,而数学和推理任务相比其他领域导致所有模型的不确定性表现较差。这项工作为多模态系统中可靠的不确定性评估奠定了基础。
更新时间: 2025-09-18 10:10:19
领域: cs.AI,cs.CV

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-31 01:37 , Processed in 0.071480 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表