找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 19|回复: 0

LED: LLM增强的无需人工筛选数据生成的开放词汇目标检测

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-22 19:39:12 | 显示全部楼层 |阅读模式
摘要: 在大规模视觉语言数据上训练的大型基础模型可以通过合成训练数据提升开放词汇的目标检测(OVD),然而手工设计的流程常常引入偏见并对特定提示过拟合。我们通过直接将大型语言模型(LLMs)的隐藏状态融合到检测器中来绕过这个问题,这是一个令人惊讶地未被充分探索的途径。本文提出了一种系统方法,通过利用MLLM的LLM的解码器层来增强视觉基础。我们引入了一个零初始化的交叉注意力适配器,以实现从LLMs到对象检测器的高效知识融合,这是一种称为LED(LLM增强的开放词汇目标检测)的新方法。我们发现中间的LLM层已经编码了丰富的空间语义;仅调整早期层就能获得大部分收益。以Swin-T作为视觉编码器,Qwen2-0.5B + LED在OmniLabel上将GroundingDINO提升了3.82%,仅额外增加8.7%的GFLOPs,而更大的视觉骨干将这一改进推动到6.22%。对适配器变体、LLM规模和融合深度的大量消融进一步证实了我们的设计。
更新时间: 2025-09-19 15:35:46
领域: cs.CV,cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-11-1 15:14 , Processed in 0.081581 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表