|
摘要: 人类驾驶员通过利用丰富的注意力语义技巧来熟练地应对复杂情境,但目前的自动驾驶系统往往无法复制这种能力,因为它们在将2D观察转换为3D空间时经常丢失关键的语义信息。在这个意义上,这阻碍了它们在动态和复杂环境中的有效部署。利用视觉语言模型(VLMs)卓越的场景理解和推理能力,我们提出了VLM-E2E,这是一个利用VLMs增强训练的新框架,通过提供注意力提示。我们的方法将文本表示集成到鸟瞰图(BEV)特征中以进行语义监督,这使得模型能够学习更丰富的特征表示,明确捕捉驾驶员的注意力语义。通过专注于注意力语义,VLM-E2E更好地与类人驾驶行为相一致,这对于导航动态和复杂环境至关重要。此外,我们引入了一种BEV-Text可学习加权融合策略来解决在融合多模态信息时的重要性不平衡问题。这种方法动态平衡了BEV和文本特征的贡献,确保视觉和文本模态的互补信息得到有效利用。通过明确解决多模态融合中的不平衡问题,我们的方法促进了对驾驶环境的更全面和更稳健的表示。我们在nuScenes数据集上评估了VLM-E2E,并在感知、预测和规划方面实现了显著的改善,超过了基线端到端模型,展示了我们增强注意力的BEV表示在实现更准确和可靠的自动驾驶任务中的有效性。 更新时间: 2025-09-18 11:55:02 领域: cs.CV,cs.AI
|