摘要: Reasoning Segmentation需要模型解释复杂、依赖上下文的语言查询,以实现像素级定位。目前主流的方法主要依赖于监督微调(SFT)或强化学习(RL)。然而,SFT容易出现灾难性遗忘和领域依赖,而RL在训练不稳定并且过于依赖预定义的奖励函数。尽管最近的无训练方法绕过了这些训练负担,但它们基本上受限于静态推理范式。这些方法通常依赖于单次“生成-分割”链,导致推理深度不足,缺乏自我纠正语言幻觉或空间误解的能力。在本文中,我们挑战这些限制,并提出了EVOL-SAM3,一个新颖的零样本框架,将推理分割重新构想为一个推理时的演化搜索过程。EVOL-SAM3不依赖于固定提示,而是通过“生成-评估-演化”循环来维护一组提示假设并逐步完善它们。我们引入了一个视觉竞技场,通过无参考的成对锦标赛评估提示的适应性,以及一个语义突变操作符来注入多样性并更正语义错误。此外,一个异构竞技场模块将几何先验与语义推理整合在一起,以确保稳健的最终选择。大量实验证明,EVOL-SAM3不仅明显优于静态基线,而且在具有挑战性的ReasonSeg基准测试中,也显著超过了全面监督的最先进方法。代码可在https://github.com/AHideoKuzeA/Evol-SAM3上找到。 更新时间: 2025-12-31 08:10:03 领域: cs.CV,cs.AI
|