|
摘要: 大型带注释的数据集对于训练强大的计算机辅助诊断(CAD)模型,用于乳腺癌检测或风险预测至关重要。然而,获得此类带有详细注释的数据集既昂贵又耗时。在大规模图像-文本对上预训练的视觉-语言模型(VLMs),如CLIP,通过增强医学成像任务中的鲁棒性和数据效率,提供了一种有希望的解决方案。本文介绍了一种新颖的多视角乳腺X线照片和语言模型,用于乳腺癌分类和风险预测,在配对乳腺X线照片和合成放射学报告数据集上训练。我们的MV-MLM利用多视角监督,通过跨模态自我监督跨图像-文本对学习丰富的放射学数据表示。这包括多个视角和相应的伪放射学报告。我们提出了一种新颖的联合视觉-文本学习策略,以增强在不同数据类型和任务上的泛化性能和准确性,以区分乳腺组织或癌症特征(钙化、肿块)并利用这些模式理解乳腺X线照片并预测癌症风险。我们在私有和公开可用数据集上评估了我们的方法,证明了所提出的模型在三个分类任务中取得了最先进的性能:(1)恶性分类、(2)亚型分类和(3)基于图像的癌症风险预测。此外,该模型表现出良好的数据效率,在训练时超越现有的完全监督或VLM基线,而无需实际放射学报告。 更新时间: 2025-10-30 05:12:29 领域: cs.CV,cs.AI
|