分辨率缩放决定DINOv3在胸部X光分类中的迁移性能

于红博 · 发表于 2025-10-9 16:34:17

摘要: 自监督学习（SSL）已经推动了视觉表示学习的发展，但其在胸部放射学领域的价值仍不清楚，这是一个具有细粒度结果的高容量成像模态。Meta的DINOv3通过Gram锚定的自蒸馏扩展了早期的SSL模型。这些设计选择是否改善了胸部放射学的迁移学习尚未经过系统测试。我们在七个数据集（n > 814,000）上对DINOv3与DINOv2和ImageNet初始化进行了基准测试。评估了两个代表性的骨干：ViT-B/16和ConvNeXt-B。图像在224x224、512x512和1024x1024像素下进行分析。我们还评估了来自7B模型的冻结特征。主要结果是跨标签的平均AUROC。在224x224下，DINOv3和DINOv2在成人数据集上的表现相当。将分辨率提高到512x512可以使DINOv3相对于DINOv2和ImageNet都有持续改进。相比之下，儿童队列中的结果显示出初始化没有差异。在所有设置中，ConvNeXt-B胜过ViT-B/16。使用冻结的DINOv3-7B特性的模型相对于完全微调的86-89M参数骨干表现不佳，突出了领域适应的重要性。将分辨率提高到1024x1024并没有进一步提高准确性。与边界相关和小焦点异常相关的分辨率增益最为明显。在胸部放射学中，更高的输入分辨率对于利用现代自监督模型的好处至关重要。512x512像素代表了DINOv3初始化的ConvNeXt-B网络提供最强大的性能的实用上限，而更大的输入只提供了很少的成本回报。临床上，这些发现支持在512x512的胸部X光解释中使用微调的中等大小的骨干，预计在检测与急救和重症监护环境相关的细微或边界中心病变时将获得最大的收益。

更新时间: 2025-10-08 16:25:04

领域: cs.CV,cs.AI,cs.LG

下载: http://arxiv.org/abs/2510.07191v1

		自动登录	找回密码
密码			立即注册