摘要: 在大规模电子商务中产品类别数量迅速增长,使得在仓库自动包装中准确识别物体变得更加困难。随着目录的增长,类内变异性和稀有或视觉相似物品的长尾增加,再加上多样的包装、杂乱的容器、频繁的遮挡和大范围的视角变化,这些因素增加了查询图像和参考图像之间的差异,导致仅依赖于2D外观特征的方法性能急剧下降。因此,我们提出了RoboEye,一个两阶段识别框架,动态增强2D语义特征与领域适应3D推理和轻量级适配器,以弥补训练部署差距。在第一阶段,我们训练一个大型视觉模型来提取2D特征,生成候选排名。然后,一个轻量级的3D特征感知模块估计3D特征质量,并预测是否需要3D重新排序,防止性能下降和避免不必要的计算。当调用时,第二阶段使用我们的机器人3D检索转换器,包括一个产生几何感知密集特征的3D特征提取器和一个基于关键点的匹配器,计算查询图像和参考图像之间的关键点对应置信度,而不是传统的余弦相似度评分。实验证明,RoboEye相较于先前的最新技术(RoboLLM)将Recall@1提高了7.1%。此外,RoboEye仅使用RGB图像进行操作,避免依赖于显式的3D输入,降低了部署成本。本文中使用的代码可在以下网址公开获取:https://github.com/longkukuhi/RoboEye。 更新时间: 2025-09-18 13:59:24 领域: cs.CV,cs.AI,cs.RO
|