进化，而非训练：通过进化提示实现零-shot 推理分割

于红博 · 发表于 2026-1-4 23:12:09

摘要: Reasoning Segmentation需要模型解释复杂、依赖上下文的语言查询，以实现像素级定位。目前主流的方法主要依赖于监督微调（SFT）或强化学习（RL）。然而，SFT容易出现灾难性遗忘和领域依赖，而RL在训练不稳定并且过于依赖预定义的奖励函数。尽管最近的无训练方法绕过了这些训练负担，但它们基本上受限于静态推理范式。这些方法通常依赖于单次“生成-分割”链，导致推理深度不足，缺乏自我纠正语言幻觉或空间误解的能力。在本文中，我们挑战这些限制，并提出了EVOL-SAM3，一个新颖的零样本框架，将推理分割重新构想为一个推理时的演化搜索过程。EVOL-SAM3不依赖于固定提示，而是通过“生成-评估-演化”循环来维护一组提示假设并逐步完善它们。我们引入了一个视觉竞技场，通过无参考的成对锦标赛评估提示的适应性，以及一个语义突变操作符来注入多样性并更正语义错误。此外，一个异构竞技场模块将几何先验与语义推理整合在一起，以确保稳健的最终选择。大量实验证明，EVOL-SAM3不仅明显优于静态基线，而且在具有挑战性的ReasonSeg基准测试中，也显著超过了全面监督的最先进方法。代码可在https://github.com/AHideoKuzeA/Evol-SAM3上找到。

更新时间: 2025-12-31 08:10:03

领域: cs.CV,cs.AI

下载: http://arxiv.org/abs/2512.24702v1

		自动登录	找回密码
密码			立即注册